Auf dieser Seite erfahren Sie, wie Sie ein Vertex AI-Dataset aus Ihren Tabellendaten erstellen, um mit dem Training von Klassifizierungs- und Regressionsmodellen zu beginnen. Sie können ein Dataset mit der Google Cloud Console oder der Vertex AI API erstellen.
Vorbereitung
Bevor Sie ein Vertex AI-Dataset aus Ihren tabellarischen Daten erstellen können, müssen Sie Ihre Daten zuerst vorbereiten. Weitere Informationen finden Sie unter:
- Tabellendaten für Klassifizierungs- und Regressionsmodelle vorbereiten
- Best Practices für das Erstellen von tabellarischen Trainingsdaten.
Leeres Dataset erstellen und die vorbereiteten Daten zuordnen
Zum Erstellen eines Modells für maschinelles Lernen für die Klassifizierung oder Regression benötigen Sie zuerst eine repräsentative Sammlung von Daten, mit denen Sie trainieren können. Verwenden Sie die Google Cloud Console oder die API, um die vorbereiteten Daten mit dem Dataset zu verknüpfen. Durch die Verknüpfung Ihrer Daten können Sie Änderungen vornehmen und das Modelltraining starten.
- Rufen Sie in der Google Cloud Console im Abschnitt "Vertex AI" die Seite Datasets auf.
- Klicken Sie auf Erstellen, um die Detailseite „Dataset erstellen” zu öffnen.
- Ändern Sie das Feld Dataset-Name, um einen beschreibenden Anzeigenamen für das Dataset zu erstellen.
- Wählen Sie den Tab Tabellarisch aus.
- Wählen Sie das Ziel Regression/Klassifizierung aus.
- Wählen Sie eine Region aus der Drop-down-Liste Region aus.
- Wenn Sie vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK) mit Ihrem Dataset verwenden möchten, öffnen Sie Erweiterte Optionen und geben Sie Ihren Schlüssel an. (Vorschau)
- Klicken Sie auf Erstellen, um ein leeres Dataset zu erstellen, und gehen Sie zum Tab Quelle.
- Wählen Sie je nach Datenquelle eine der folgenden Optionen aus.
- Klicken Sie auf CSV-Dateien von Ihrem Computer hochladen.
- Klicken Sie auf Dateien auswählen und wählen Sie alle lokalen Dateien aus, die in einen Cloud Storage-Bucket hochgeladen werden sollen.
- Geben Sie im Abschnitt Cloud Storage-Pfad auswählen den Pfad zum Cloud Storage-Bucket ein oder klicken Sie auf Durchsuchen, um einen Bucket-Speicherort auszuwählen.
- Klicken Sie auf CSV-Dateien aus Cloud Storage auswählen.
- Geben Sie im Abschnitt CSV-Dateien aus Cloud Storage auswählen den Pfad zum Cloud Storage-Bucket ein oder klicken Sie auf Durchsuchen, um den Speicherort Ihrer CSV-Dateien auszuwählen.
- Klicken Sie auf Tabelle oder Ansicht aus BigQuery auswählen.
- Geben Sie die Projekt-, Dataset- und Tabellen-IDs für die Eingabedatei ein.
- Klicken Sie auf Weiter.
Die Datenquelle ist Ihrem Dataset zugeordnet.
Dataset mit Daten in Cloud Storage erstellen
Zum Erstellen eines Datasets verwenden Sie die Methode datasets.create.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
-
LOCATION: Region, in der das Dataset gespeichert wird. Dies muss eine Region sein, die Dataset-Ressourcen unterstützt. Beispiel:
us-central1
- PROJECT: Ihre Projekt-ID.
- DATASET_NAME: Anzeigename für das Dataset.
-
METADATA_SCHEMA_URI: Der URI zur Schemadatei für Ihr Ziel.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: Pfade (URIs) zu den Cloud Storage-Buckets mit den Trainingsdaten.
Es können mehrere sein. Jeder URI hat das folgende Format:
gs://
GCSprojectId /bucketName /fileName - PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION -aiplatform.googleapis.com/v1/projects/PROJECT /locations/LOCATION /datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME ", "metadata_schema_uri": "METADATA_SCHEMA_URI ", "metadata": { "input_config": { "gcs_source": { "uri": [URI1 ,URI2 , ...] } } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION -aiplatform.googleapis.com/v1/projects/PROJECT /locations/LOCATION /datasets"
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION -aiplatform.googleapis.com/v1/projects/PROJECT /locations/LOCATION /datasets" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER /locations/LOCATION /datasets/DATASET_ID /operations/OPERATION_ID ", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI SDK for Python API.
Dataset mit Daten in BigQuery erstellen
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
-
LOCATION: Region, in der das Dataset gespeichert wird. Dies muss eine Region sein, die Dataset-Ressourcen unterstützt. Beispiel:
us-central1
- PROJECT: Ihre Projekt-ID.
- DATASET_NAME: Anzeigename für das Dataset.
-
METADATA_SCHEMA_URI: Der URI zur Schemadatei für Ihr Ziel.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: Pfad zur BigQuery-Tabelle mit den Trainingsdaten. Füllen Sie das Formular aus:
bq://
bqprojectId .bqDatasetId .bqTableId - PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION -aiplatform.googleapis.com/v1/projects/PROJECT /locations/LOCATION /datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME ", "metadata_schema_uri": "METADATA_SCHEMA_URI ", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION -aiplatform.googleapis.com/v1/projects/PROJECT /locations/LOCATION /datasets"
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION -aiplatform.googleapis.com/v1/projects/PROJECT /locations/LOCATION /datasets" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER /locations/LOCATION /datasets/DATASET_ID /operations/OPERATION_ID ", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI SDK for Python API.
Vorgangsstatus abrufen
Einige Anfragen starten lang andauernde Vorgänge, die viel Zeit in Anspruch nehmen. Diese Anfragen geben einen Vorgangsnamen zurück, mit dem Sie den Status des Vorgangs aufrufen oder den Vorgang abbrechen können. Vertex AI stellt Hilfsmethoden bereit, um Aufrufe für Vorgänge mit langer Laufzeit auszuführen. Weitere Informationen finden Sie unter Mit lang andauernden Vorgängen arbeiten.