Esta página mostra-lhe como criar um conjunto de dados do Vertex AI a partir dos seus dados tabulares para que possa começar a preparar modelos de classificação e regressão. Pode criar um conjunto de dados através da Google Cloud consola ou da API Vertex AI.
Antes de começar
Antes de criar um conjunto de dados do Vertex AI a partir dos seus dados tabulares, prepare primeiro os dados. Para obter mais detalhes, consulte as secções:
- Prepare dados de preparação tabulares para modelos de classificação e regressão
- Práticas recomendadas para criar dados de preparação tabulares.
Crie um conjunto de dados vazio e associe os dados preparados
Para criar um modelo de aprendizagem automática para classificação ou regressão, tem de ter primeiro uma coleção representativa de dados para usar na preparação. Use a Google Cloud consola ou a API para associar os dados preparados ao conjunto de dados. A associação dos seus dados permite-lhe fazer modificações e iniciar a formação do modelo.
Google Cloud consola
- Na Google Cloud consola, na secção Vertex AI, aceda à página Conjuntos de dados.
- Clique em Criar para abrir a página de detalhes de criação do conjunto de dados.
- Modifique o campo Nome do conjunto de dados para criar um nome a apresentar descritivo do conjunto de dados.
- Selecione o separador Tabelar.
- Selecione o objetivo Regressão/classificação.
- Selecione uma região na lista pendente Região.
- Se quiser usar chaves de encriptação geridas pelo cliente (CMEK) com o seu conjunto de dados, abra as Opções avançadas e faculte a sua chave. (Pré-visualizar)
- Clique em Criar para criar o conjunto de dados vazio e avançar para o separador Origem.
- Escolha uma das seguintes opções, com base na sua origem de dados.
Ficheiros CSV no seu computador
- Clique em Carregar ficheiros CSV do seu computador.
- Clique em Selecionar ficheiros e escolha todos os ficheiros locais a carregar para um contentor do Cloud Storage.
- Na secção Selecione um caminho do Cloud Storage, introduza o caminho para o contentor do Cloud Storage ou clique em Procurar para escolher uma localização do contentor.
Ficheiros CSV no Cloud Storage
- Clique em Selecionar ficheiros CSV do Cloud Storage.
- Na secção Selecione ficheiros CSV do Cloud Storage, introduza o caminho para o contentor do Cloud Storage ou clique em Procurar para escolher a localização dos seus ficheiros CSV.
Uma tabela ou uma vista no BigQuery
- Clique em Selecionar uma tabela ou uma vista do BigQuery.
- Introduza os IDs do projeto, do conjunto de dados e da tabela para o seu ficheiro de entrada.
- Clique em Continuar.
A origem de dados está associada ao conjunto de dados.
API
Quando cria um conjunto de dados, também o associa à respetiva origem de dados. O código necessário para criar um conjunto de dados depende de os dados de preparação residirem no Cloud Storage ou no BigQuery. Se a origem de dados residir num projeto diferente, certifique-se de que configura as autorizações necessárias.Criar um conjunto de dados com dados no Cloud Storage
REST
Use o método datasets.create para criar um conjunto de dados.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
-
LOCATION: região onde o conjunto de dados vai ser armazenado. Tem de ser uma região que suporte recursos de conjuntos de dados. Por exemplo,
us-central1
. - PROJECT: o seu ID do projeto.
- DATASET_NAME: nome a apresentar do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI para o ficheiro de esquema do seu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: caminhos (URIs) para os contentores do Cloud Storage que contêm os dados de preparação.
Pode haver mais do que um. Cada URI tem o formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: o número do projeto gerado automaticamente para o seu projeto.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON do pedido:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de experimentar este exemplo, siga as Javainstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Java Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de experimentar este exemplo, siga as Node.jsinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Node.js Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
Criar um conjunto de dados com dados no BigQuery
REST
Use o método datasets.create para criar um conjunto de dados.Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
-
LOCATION: região onde o conjunto de dados vai ser armazenado. Tem de ser uma região que suporte recursos de conjuntos de dados. Por exemplo,
us-central1
. - PROJECT: .
- DATASET_NAME: nome a apresentar do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI para o ficheiro de esquema do seu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: Caminho para a tabela do BigQuery que contém os dados de preparação. No formulário:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: o número do projeto gerado automaticamente para o seu projeto.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON do pedido:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de experimentar este exemplo, siga as Javainstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Java Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de experimentar este exemplo, siga as Node.jsinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Node.js Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
Obtenha o estado da operação
Alguns pedidos iniciam operações de longa duração que requerem tempo para serem concluídas. Estes pedidos devolvem um nome da operação, que pode usar para ver o estado da operação ou cancelar a operação. A Vertex AI fornece métodos auxiliares para fazer chamadas contra operações de longa duração. Para mais informações, consulte o artigo Trabalhar com operações de longa duração.