Nesta página, mostramos como criar um conjunto de dados da Vertex AI a partir dos seus dados tabulares para começar a treinar modelos de classificação e regressão. É possível criar um conjunto de dados usando o console do Google Cloud ou a API Vertex AI.
Antes de começar
Antes de criar um conjunto de dados da Vertex AI a partir dos seus dados tabulares, é necessário preparar seus dados. Veja mais detalhes em:
- Preparar dados de treinamento tabular para modelos de classificação e regressão
- Práticas recomendadas para criar dados de treinamento tabular.
Crie um conjunto de dados vazio e associe os dados preparados
Para criar um modelo de machine learning para classificação ou regressão, primeiro é necessário ter uma coleção representativa de dados para treinar. Use o console do Google Cloud ou a API para associar os dados preparados ao conjunto de dados. Com a associação dos seus dados, é possível fazer modificações e iniciar o treinamento de modelo.
Console do Google Cloud
- No Console do Google Cloud, na seção da Vertex AI, acesse a página Conjuntos de dados.
- Clique em Criar para abrir a página de detalhes da criação do conjunto de dados.
- Modifique o campo Nome do conjunto de dados para criar um nome de exibição descritivo para o conjunto de dados.
- Selecione a guia Tabular.
- Selecione o objetivo de Regressão/classificação.
- Selecione uma região na lista suspensa Região.
- Se você quiser usar chaves de criptografia gerenciadas pelo cliente (CMEK, na sigla em inglês) com seu conjunto de dados, abra Opções avançadas e forneça a chave. (Visualizar)
- Clique em Criar para criar o conjunto de dados vazio e avance para a guia Origem.
- Escolha uma das opções a seguir, com base na sua fonte de dados.
Arquivos CSV no seu computador
- Clique em Fazer upload de arquivos CSV do seu computador.
- Clique em Selecionar arquivos e escolha todos os arquivos locais para fazer upload para um bucket do Cloud Storage.
- Na seção Selecionar um caminho do Cloud Storage, insira o caminho para o bucket do Cloud Storage ou clique em Procurar para escolher um local do bucket.
Arquivos CSV no Cloud Storage
- Clique em Selecionar arquivos CSV do Cloud Storage.
- Na seção Selecionar arquivos CSV do Cloud Storage, insira o caminho para o bucket do Cloud Storage ou clique em Procurar para escolher o local dos arquivos CSV.
Uma tabela ou visualização no BigQuery
- Clique em Selecione uma tabela ou visualização do BigQuery.
- Insira os IDs do projeto, do conjunto de dados e da tabela do arquivo de entrada.
- Clique em Continuar.
A fonte de dados está associada ao seu conjunto de dados.
API
Quando você cria um conjunto de dados, também o associa à fonte de dados dele. O código necessário para criar um conjunto de dados depende se os dados de treinamento residem no Cloud Storage ou no BigQuery. Se a fonte de dados residir em um projeto diferente, configure as permissões necessárias.Como criar um conjunto de dados com dados no Cloud Storage
REST
Use o método datasets.create para criar um conjunto de dados.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
-
LOCATION: região onde o conjunto de dados será armazenado. Precisa ser uma região compatível com recursos do conjunto de dados. Por exemplo,
us-central1
. - PROJECT: o ID do projeto.
- DATASET_NAME: nome de exibição do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI do arquivo de esquema do objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: caminhos (URIs) para os buckets do Cloud Storage que contêm os dados de treinamento.
Pode haver mais de um. Cada URI tem o seguinte formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: o número do projeto gerado automaticamente.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON da solicitação:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de testar esse exemplo, siga as instruções de configuração para Java no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Java.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de testar esse exemplo, siga as instruções de configuração para Node.js no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Node.js.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Como criar um conjunto de dados com dados no BigQuery
REST
Use o método datasets.create para criar um conjunto de dados.Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
-
LOCATION: região onde o conjunto de dados será armazenado. Precisa ser uma região compatível com recursos do conjunto de dados. Por exemplo,
us-central1
. - PROJECT: o ID do projeto.
- DATASET_NAME: nome de exibição do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI do arquivo de esquema do objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: caminho para a tabela do BigQuery que contém os dados de treinamento. No formulário, siga estas etapas:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: o número do projeto gerado automaticamente.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON da solicitação:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de testar esse exemplo, siga as instruções de configuração para Java no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Java.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de testar esse exemplo, siga as instruções de configuração para Node.js no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Node.js.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Receber status da operação
Algumas solicitações iniciam operações de longa duração que exigem tempo para serem concluídas. Essas solicitações retornam um nome de operação, que pode ser usado para ver o status da operação ou cancelá-la. A Vertex AI oferece métodos auxiliares para realizar chamadas em operações de longa duração. Para mais informações, consulte Como trabalhar com operações de longa duração.