Dataset-Versionen verwalten

Mit Vertex AI können Sie Versionen für ein Dataset erstellen. Diese Funktion kann für die Reproduzierbarkeit, Rückverfolgbarkeit und Dataset-Herkunftsverwaltung hilfreich sein.

Sie können Versionen für Bild- und Text-Datasets erstellen. Wenn Sie eine Dataset-Version erstellen, erstellt Vertex AI ein BigQuery, sofern keines vorhanden ist. Das BigQuery-Dataset speichert alle Versionen für das zugehörige Vertex AI-Dataset.

Wenn Sie eine Version wiederherstellen, überschreiben Sie das zugehörige Dataset. Das Dataset ist vorübergehend nicht für andere Anfragen verfügbar, bis der Wiederherstellungsvorgang endet.

Dataset-Version erstellen

Mit der Vertex AI API können Sie eine Dataset-Version erstellen. Folgen Sie der Anleitung auf dem entsprechenden Tab:

REST

Dataset-ID abrufen

Zum Erstellen einer Version benötigen Sie die numerische ID des Datasets. Wenn Sie zwar den Anzeigenamen des Dataset, nicht aber die ID kennen, erweitern Sie den folgenden Abschnitt, um zu erfahren, wie Sie die ID mit der API abrufen:

ID eines Dataset aus dem Anzeigenamen abrufen

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Der Standort, an dem das Dataset gespeichert ist. Beispiel: us-central1

  • PROJECT_ID: Ihre Projekt-ID.

  • DATASET_DISPLAY_NAME: Der Anzeigename von Dataset.

HTTP-Methode und URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME

Senden Sie die Anfrage mithilfe einer der folgenden Optionen:

curl

Führen Sie folgenden Befehl aus:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME"

PowerShell

Führen Sie folgenden Befehl aus:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME" | Select-Object -Expand Content

Die folgende Beispielantwort wurde mit ... verkürzt, um hervorzuheben, wo Sie die ID von Dataset finden. Es ist die Nummer, die DATASET_ID ersetzt.

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID",
      "displayName": "DATASET_DISPLAY_NAME",
      ...
    }
  ]
}

Alternativ können Sie die ID des aus der Google Cloud Console abrufen: Rufen Sie die Vertex AI-Seite Datasets auf und suchen Sie die Nummer in der Spalte ID.

Zur Seite „Datasets“

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Die Region, in der die Dataset-Version gespeichert ist. Beispiel: us-central.

  • PROJECT_ID: Ihre Projekt-ID.

  • DATASET_ID: Die numerische ID des Datasets.

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions

Senden Sie die Anfrage mithilfe einer der folgenden Optionen:

curl

Führen Sie folgenden Befehl aus:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d "" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions"

PowerShell

Führen Sie folgenden Befehl aus:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions" | Select-Object -Expand Content

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetVersionOperationMetadata",
    "genericMetadata": {
      "createTime": "2021-02-17T00:54:58.827429Z",
      "updateTime": "2021-02-17T00:54:58.827429Z"
    },
  }
}

Einige Anfragen starten lang andauernde Vorgänge, die viel Zeit in Anspruch nehmen. Diese Anfragen geben einen Vorgangsnamen zurück, mit dem Sie den Status des Vorgangs aufrufen oder den Vorgang abbrechen können. Vertex AI stellt Hilfsmethoden bereit, um Aufrufe für Vorgänge mit langer Laufzeit auszuführen. Weitere Informationen finden Sie unter Mit lang andauernden Vorgängen arbeiten.

Dataset-Version wiederherstellen

Mit der Vertex AI API können Sie eine Dataset-Version wiederherstellen. Folgen Sie der Anleitung auf dem entsprechenden Tab:

REST

Versions-ID eines Datasets abrufen

Um eine Version wiederherzustellen, benötigen Sie die numerische ID der Version. Sie können alle Dataset-Versionen mithilfe der API auflisten:

DatasetVersions eines Dataset auflisten

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Die Region, in der die Dataset-Version gespeichert ist. Beispiel: us-central.

  • PROJECT_ID: Ihre Projekt-ID.

  • DATASET_ID: Die numerische ID des Datasets.

HTTP-Methode und URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions

Senden Sie die Anfrage mithilfe einer der folgenden Optionen:

curl

Führen Sie folgenden Befehl aus:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions"

PowerShell

Führen Sie folgenden Befehl aus:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions" | Select-Object -Expand Content

Die folgende Beispielantwort wurde mit ... verkürzt, um hervorzuheben, wo Sie die ID der Dataset-Version finden: Es ist die Nummer, die DATASET_VERSION_ID ersetzt.

{
  "datasetVersions": [
    {
      "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID",
      ...
    }
  ]
}

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • LOCATION: Die Region, in der die Dataset-Version gespeichert ist. Beispiel: us-central.

  • PROJECT_ID: Ihre Projekt-ID.

  • DATASET_ID: Die numerische ID des Datasets.

  • DATASET_VERSION_ID: Die numerische ID der Dataset-Version.

HTTP-Methode und URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore

Senden Sie die Anfrage mithilfe einer der folgenden Optionen:

curl

Führen Sie folgenden Befehl aus:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore"

PowerShell

Führen Sie folgenden Befehl aus:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore" | Select-Object -Expand Content

Sie sollten in etwa folgende JSON-Antwort erhalten:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RestoreDatasetVersionOperationMetadata",
    "genericMetadata": {
      "createTime": "2021-02-17T00:54:58.827429Z",
      "updateTime": "2021-02-17T00:54:58.827429Z"
    },
  }
}

Einige Anfragen starten lang andauernde Vorgänge, die viel Zeit in Anspruch nehmen. Diese Anfragen geben einen Vorgangsnamen zurück, mit dem Sie den Status des Vorgangs aufrufen oder den Vorgang abbrechen können. Vertex AI stellt Hilfsmethoden bereit, um Aufrufe für Vorgänge mit langer Laufzeit auszuführen. Weitere Informationen finden Sie unter Mit lang andauernden Vorgängen arbeiten.

Nächste Schritte

Lesen Sie mehr zum Arbeiten mit Datasets in Vertex AI.