Nesta página, mostramos como criar um conjunto de dados da Vertex AI a partir dos seus dados tabulares para começar a treinar modelos de previsão. É possível criar um conjunto de dados usando o console do Google Cloud ou a API Vertex AI.
Antes de começar
Antes de criar um conjunto de dados do Vertex AI com base nos seus dados tabulares, é necessário preparar os dados de treinamento.
Crie um conjunto de dados vazio e associe os dados preparados
Para criar um modelo de aprendizado de máquina para previsão, primeiro é preciso ter uma coleção representativa de dados para treinar. Use o console do Google Cloud ou a API para associar os dados preparados ao conjunto de dados.
Quando você cria um conjunto de dados, também o associa à fonte de dados dele. Os dados de treinamento podem ser um arquivo CSV no Cloud Storage ou uma tabela no BigQuery. Se a fonte de dados residir em um projeto diferente, configure as permissões necessárias.
Console do Google Cloud
- No Console do Google Cloud, na seção da Vertex AI, acesse a página Conjuntos de dados.
- Clique em Criar para abrir a página de detalhes da criação do conjunto de dados.
- Modifique o campo Nome do conjunto de dados para criar um nome de exibição descritivo para o conjunto de dados.
- Selecione a guia Tabular.
- Selecione o objetivo Previsão.
- Selecione uma região na lista suspensa Região.
- Clique em Criar para criar o conjunto de dados vazio e avance para a guia Origem.
- Escolha uma das opções a seguir, com base na sua fonte de dados.
Arquivos CSV no seu computador
- Clique em Fazer upload de arquivos CSV do seu computador.
- Clique em Selecionar arquivos e escolha todos os arquivos locais para fazer upload para um bucket do Cloud Storage.
- Na seção Selecionar um caminho do Cloud Storage, insira o caminho para o bucket do Cloud Storage ou clique em Procurar para escolher um local do bucket.
Arquivos CSV no Cloud Storage
- Clique em Selecionar arquivos CSV do Cloud Storage.
- Na seção Selecionar arquivos CSV do Cloud Storage, insira o caminho para o bucket do Cloud Storage ou clique em Procurar para escolher o local dos arquivos CSV.
Uma tabela ou visualização no BigQuery
- Clique em Selecione uma tabela ou visualização do BigQuery.
- Insira os IDs do projeto, do conjunto de dados e da tabela do arquivo de entrada.
- Clique em Continuar.
A fonte de dados está associada ao seu conjunto de dados.
-
Na guia Analisar, especifique as colunas Carimbo de data/hora e
Identificador de série
para este conjunto de dados.
É possível especificar essas colunas ao treinar o modelo. No entanto, geralmente um conjunto de dados de previsão tem colunas de identificador de série temporal e tempo específicas. Portanto, especificá-las no conjunto de dados é. uma prática recomendada.
API : CSV
REST
Use o método datasets.create para criar um conjunto de dados.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
-
LOCATION: região onde o conjunto de dados será armazenado. Precisa ser uma região compatível com recursos do conjunto de dados. Por exemplo,
us-central1
. - PROJECT: o ID do projeto.
- DATASET_NAME: nome de exibição do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI do arquivo de esquema do objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: caminhos (URIs) para os buckets do Cloud Storage que contêm os dados de treinamento.
Pode haver mais de um. Cada URI tem o seguinte formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: o número do projeto gerado automaticamente.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON da solicitação:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de testar esse exemplo, siga as instruções de configuração para Java no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Java.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de testar esse exemplo, siga as instruções de configuração para Node.js no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Node.js.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
API : BigQuery
REST
Use o método datasets.create para criar um conjunto de dados.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
-
LOCATION: região onde o conjunto de dados será armazenado. Precisa ser uma região compatível com recursos do conjunto de dados. Por exemplo,
us-central1
. - PROJECT: o ID do projeto.
- DATASET_NAME: nome de exibição do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI do arquivo de esquema do objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: caminho para a tabela do BigQuery que contém os dados de treinamento. No formulário, siga estas etapas:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: o número do projeto gerado automaticamente.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON da solicitação:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de testar esse exemplo, siga as instruções de configuração para Java no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Java.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de testar esse exemplo, siga as instruções de configuração para Node.js no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Node.js.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Receber status da operação
Algumas solicitações iniciam operações de longa duração que exigem tempo para serem concluídas. Essas solicitações retornam um nome de operação, que pode ser usado para ver o status da operação ou cancelá-la. A Vertex AI oferece métodos auxiliares para realizar chamadas em operações de longa duração. Para mais informações, consulte Como trabalhar com operações de longa duração.