Faça a gestão das versões do conjunto de dados

O Vertex AI permite-lhe criar versões de um conjunto de dados. Esta capacidade pode ser útil para a reprodutibilidade, a rastreabilidade e a gestão da linhagem do conjunto de dados.

Pode criar versões para conjuntos de dados de imagens e texto. Quando cria uma versão do conjunto de dados, o Vertex AI cria um conjunto de dados do BigQuery, se não existir nenhum. O conjunto de dados do BigQuery armazena todas as versões do conjunto de dados do Vertex AI associado.

Quando restaura uma versão, substitui o conjunto de dados associado. O conjunto de dados está temporariamente indisponível para outros pedidos até que a operação de restauro termine.

Crie uma versão do conjunto de dados

Pode usar a API Vertex AI para criar uma versão do conjunto de dados. Siga os passos no separador correspondente:

REST

Obtenha o ID do conjunto de dados

Para criar uma versão, tem de saber o ID numérico do conjunto de dados. Se souber o nome a apresentar do conjunto de dados, mas não o ID, expanda a secção seguinte para saber como obter o ID através da API:

Obtenha o ID de um Dataset a partir do respetivo nome a apresentar

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • LOCATION: a localização onde o Dataset está armazenado. Por exemplo, us-central1.

  • PROJECT_ID: o seu ID do projeto.

  • DATASET_DISPLAY_NAME: o nome a apresentar do Dataset.

Método HTTP e URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME

Para enviar o seu pedido, escolha uma destas opções:

curl

Execute o seguinte comando:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME"

PowerShell

Execute o seguinte comando:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets?filter=displayName=DATASET_DISPLAY_NAME" | Select-Object -Expand Content

A resposta de exemplo seguinte foi truncada com ... para realçar onde pode encontrar o ID do Dataset: é o número que substitui DATASET_ID.

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID",
      "displayName": "DATASET_DISPLAY_NAME",
      ...
    }
  ]
}

Em alternativa, pode obter o ID do conjunto de dados na Google Cloud consola: Aceda à página Conjuntos de dados do Vertex AI e encontre o número na coluna ID.

Aceda à página Conjuntos de dados

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • LOCATION: a região onde a versão do conjunto de dados está armazenada. Por exemplo, us-central.

  • PROJECT_ID: o seu ID do projeto.

  • DATASET_ID: o ID numérico do conjunto de dados.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions

Para enviar o seu pedido, escolha uma destas opções:

curl

Execute o seguinte comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d "" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions"

PowerShell

Execute o seguinte comando:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions" | Select-Object -Expand Content

Deve receber uma resposta JSON semelhante à seguinte:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetVersionOperationMetadata",
    "genericMetadata": {
      "createTime": "2021-02-17T00:54:58.827429Z",
      "updateTime": "2021-02-17T00:54:58.827429Z"
    },
  }
}

Alguns pedidos iniciam operações de longa duração que requerem tempo para serem concluídas. Estes pedidos devolvem um nome da operação, que pode usar para ver o estado da operação ou cancelar a operação. A Vertex AI fornece métodos auxiliares para fazer chamadas contra operações de longa duração. Para mais informações, consulte o artigo Trabalhar com operações de longa duração.

Restaure uma versão do conjunto de dados

Pode usar a API Vertex AI para restaurar uma versão de um conjunto de dados. Siga os passos no separador correspondente:

REST

Obtenha o ID da versão do conjunto de dados

Para restaurar uma versão, tem de saber o ID numérico da versão. Pode listar todas as versões do conjunto de dados através da API:

Listar os DatasetVersions de Dataset

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • LOCATION: a região onde a versão do conjunto de dados está armazenada. Por exemplo, us-central.

  • PROJECT_ID: o seu ID do projeto.

  • DATASET_ID: o ID numérico do conjunto de dados.

Método HTTP e URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions

Para enviar o seu pedido, escolha uma destas opções:

curl

Execute o seguinte comando:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions"

PowerShell

Execute o seguinte comando:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions" | Select-Object -Expand Content

A resposta de exemplo seguinte foi truncada com ... para realçar onde pode encontrar o ID da versão do conjunto de dados: é o número que substitui DATASET_VERSION_ID.

{
  "datasetVersions": [
    {
      "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID",
      ...
    }
  ]
}

Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:

  • LOCATION: a região onde a versão do conjunto de dados está armazenada. Por exemplo, us-central.

  • PROJECT_ID: o seu ID do projeto.

  • DATASET_ID: o ID numérico do conjunto de dados.

  • DATASET_VERSION_ID: o ID numérico da versão do conjunto de dados.

Método HTTP e URL:

GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore

Para enviar o seu pedido, escolha uma destas opções:

curl

Execute o seguinte comando:

curl -X GET \
-H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore"

PowerShell

Execute o seguinte comando:

$cred = gcloud auth application-default print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID/datasetVersions/DATASET_VERSION_ID:restore" | Select-Object -Expand Content

Deve receber uma resposta JSON semelhante à seguinte:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RestoreDatasetVersionOperationMetadata",
    "genericMetadata": {
      "createTime": "2021-02-17T00:54:58.827429Z",
      "updateTime": "2021-02-17T00:54:58.827429Z"
    },
  }
}

Alguns pedidos iniciam operações de longa duração que requerem tempo para serem concluídas. Estes pedidos devolvem um nome da operação, que pode usar para ver o estado da operação ou cancelar a operação. A Vertex AI fornece métodos auxiliares para fazer chamadas contra operações de longa duração. Para mais informações, consulte o artigo Trabalhar com operações de longa duração.

O que se segue?

Leia mais sobre como trabalhar com conjuntos de dados no Vertex AI.