Esta página mostra-lhe como criar um conjunto de dados do Vertex AI a partir dos seus dados tabulares para que possa começar a preparar modelos de previsão. Pode criar um conjunto de dados através da Google Cloud consola ou da API Vertex AI.
Antes de começar
Antes de criar um conjunto de dados do Vertex AI a partir dos seus dados tabulares, prepare os seus dados de preparação.
Crie um conjunto de dados vazio e associe os dados preparados
Para criar um modelo de aprendizagem automática para previsões, tem de ter uma recolha representativa de dados para usar na preparação. Use a Google Cloud consola ou a API para associar os dados preparados ao conjunto de dados.
Quando cria um conjunto de dados, também o associa à respetiva origem de dados. Os dados de preparação podem ser um ficheiro CSV no Cloud Storage ou uma tabela no BigQuery. Se a origem de dados residir num projeto diferente, certifique-se de que configura as autorizações necessárias.
Google Cloud consola
- Na Google Cloud consola, na secção Vertex AI, aceda à página Conjuntos de dados.
- Clique em Criar para abrir a página de detalhes de criação do conjunto de dados.
- Modifique o campo Nome do conjunto de dados para criar um nome a apresentar descritivo do conjunto de dados.
- Selecione o separador Tabelar.
- Selecione o objetivo Previsão.
- Selecione uma região na lista pendente Região.
- Clique em Criar para criar o conjunto de dados vazio e avançar para o separador Origem.
- Escolha uma das seguintes opções, com base na sua origem de dados.
Ficheiros CSV no seu computador
- Clique em Carregar ficheiros CSV do seu computador.
- Clique em Selecionar ficheiros e escolha todos os ficheiros locais a carregar para um contentor do Cloud Storage.
- Na secção Selecione um caminho do Cloud Storage, introduza o caminho para o contentor do Cloud Storage ou clique em Procurar para escolher uma localização do contentor.
Ficheiros CSV no Cloud Storage
- Clique em Selecionar ficheiros CSV do Cloud Storage.
- Na secção Selecione ficheiros CSV do Cloud Storage, introduza o caminho para o contentor do Cloud Storage ou clique em Procurar para escolher a localização dos seus ficheiros CSV.
Uma tabela ou uma vista no BigQuery
- Clique em Selecionar uma tabela ou uma vista do BigQuery.
- Introduza os IDs do projeto, do conjunto de dados e da tabela para o seu ficheiro de entrada.
- Clique em Continuar.
A origem de dados está associada ao conjunto de dados.
-
No separador Analisar, especifique a coluna Data/hora e a coluna
Identificador da série
para este conjunto de dados.
Também pode especificar estas colunas quando prepara o modelo, mas, geralmente, um conjunto de dados de previsão tem colunas de identificador de tempo e de série cronológica específicas, pelo que especificá-las no conjunto de dados é uma prática recomendada.
API : CSV
REST
Use o método datasets.create para criar um conjunto de dados.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
-
LOCATION: região onde o conjunto de dados vai ser armazenado. Tem de ser uma região que suporte recursos de conjuntos de dados. Por exemplo,
us-central1
. - PROJECT: o seu ID do projeto.
- DATASET_NAME: nome a apresentar do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI para o ficheiro de esquema do seu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: caminhos (URIs) para os contentores do Cloud Storage que contêm os dados de preparação.
Pode haver mais do que um. Cada URI tem o formato:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: o número do projeto gerado automaticamente para o seu projeto.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON do pedido:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de experimentar este exemplo, siga as Javainstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Java Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de experimentar este exemplo, siga as Node.jsinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Node.js Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
API : BigQuery
REST
Use o método datasets.create para criar um conjunto de dados.
Antes de usar qualquer um dos dados do pedido, faça as seguintes substituições:
-
LOCATION: região onde o conjunto de dados vai ser armazenado. Tem de ser uma região que suporte recursos de conjuntos de dados. Por exemplo,
us-central1
. - PROJECT: .
- DATASET_NAME: nome a apresentar do conjunto de dados.
-
METADATA_SCHEMA_URI: o URI para o ficheiro de esquema do seu objetivo.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: Caminho para a tabela do BigQuery que contém os dados de preparação. No formulário:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: o número do projeto gerado automaticamente para o seu projeto.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corpo JSON do pedido:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Para enviar o seu pedido, escolha uma destas opções:
curl
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Guarde o corpo do pedido num ficheiro com o nome request.json
,
e execute o seguinte comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Deve receber uma resposta JSON semelhante à seguinte:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Antes de experimentar este exemplo, siga as Javainstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Java Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Antes de experimentar este exemplo, siga as Node.jsinstruções de configuração no início rápido do Vertex AI com bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Node.js Vertex AI.
Para se autenticar no Vertex AI, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar ou atualizar o SDK Vertex AI para Python, consulte o artigo Instale o SDK Vertex AI para Python. Para mais informações, consulte a Python documentação de referência da API.
Obtenha o estado da operação
Alguns pedidos iniciam operações de longa duração que requerem tempo para serem concluídas. Estes pedidos devolvem um nome da operação, que pode usar para ver o estado da operação ou cancelar a operação. A Vertex AI fornece métodos auxiliares para fazer chamadas contra operações de longa duração. Para mais informações, consulte o artigo Trabalhar com operações de longa duração.