Nesta página, você verá como criar um conjunto de dados e preenchê-lo com a importação de dados em tabelas. Em seguida, será possível usar o AutoML Tables para treinar um modelo nesse conjunto de dados.
Introdução
Um conjunto de dados é um objeto do Google Cloud contendo os dados da tabela de origem com as informações de esquema que determinam os parâmetros de treinamento de modelo. O conjunto de dados serve como entrada para treinar um modelo.
Um projeto pode ter vários conjuntos de dados. É possível conseguir uma lista dos conjuntos de dados disponíveis e excluir conjuntos de dados que não são mais necessários.
A atualização de um conjunto de dados ou das informações de esquema afeta qualquer modelo futuro que use esse conjunto de dados. Os modelos que já tiverem começado o treinamento não serão afetados.
Antes de começar
Antes de usar o AutoML Tables, é necessário configurar o projeto conforme descrito em Antes de começar. Antes de criar um conjunto de dados, você precisa criar os dados de treinamento conforme descrito em Preparar dados de treinamento.
Como criar um conjunto de dados
Console
Acesse a página do AutoML Tables no console do Google Cloud para iniciar o processo de criação do conjunto de dados.
Selecione Conjunto de dados e depois Novo conjunto de dados.
Insira o nome do conjunto de dados e especifique a Região em que o conjunto de dados será criado.
Veja mais informações em Locais.
Clique em Criar conjunto de dados.
A guia Importar é exibida. Agora é possível importar seus dados.
REST
Para criar um conjunto de dados, use o método datasets.create.
Antes de usar os dados da solicitação, faça as substituições a seguir:
-
endpoint:
automl.googleapis.com
para o local global eeu-automl.googleapis.com
para a região da UE. - project-id: é seu ID do projeto no Google Cloud.
- location: o local do recurso:
us-central1
para global oueu
para a União Europeia. - dataset-display-name: o nome de exibição do conjunto de dados.
Método HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets
Corpo JSON da solicitação:
{ "displayName": "dataset-display-name", "tablesDatasetMetadata": { }, }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/1234/locations/us-central1/datasets/TBL6543", "displayName": "sample_dataset", "createTime": "2019-12-23T23:03:34.139313Z", "updateTime": "2019-12-23T23:03:34.139313Z", "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=", "tablesDatasetMetadata": { "areStatsFresh": true "statsUpdateTime": "1970-01-01T00:00:00Z", "tablesDatasetType": "BASIC" } }
Salve o name
do novo conjunto de dados (da resposta) para usar com outras operações, como importar itens para o conjunto de dados e treinar um modelo.
Agora é possível importar seus dados.
Java
Se os recursos estiverem localizados na região da UE, você precisará definir o endpoint explicitamente. Saiba mais.
Node.js
Se os recursos estiverem localizados na região da UE, você precisará definir o endpoint explicitamente. Saiba mais.
Python
A biblioteca de cliente para AutoML Tables inclui outros métodos Python que simplificam o uso da API AutoML Tables. Esses métodos se referem aos conjuntos de dados e aos modelos pelos nomes e não pelos IDs. É preciso que os nomes dos conjuntos de dados e modelos sejam exclusivos. Para mais informações, consulte a Referência do cliente.
Se os recursos estiverem localizados na região da UE, você precisará definir o endpoint explicitamente. Saiba mais.
Como importar dados em um conjunto de dados
Não é possível importar dados em um conjunto de dados que já contiver dados. É preciso primeiro criar um novo conjunto de dados.
Console
Se necessário, selecione o conjunto de dados da lista na página Conjuntos de dados para abrir a guia Importar.
Escolha a fonte de importação dos seus dados: BigQuery, Cloud Storage ou computador local. Forneça as informações necessárias.
Se você carregar os arquivos CSV do computador local, será preciso fornecer um bucket do Cloud Storage. Seus arquivos serão carregados nesse bucket antes de serem importados para o AutoML Tables. Os arquivos permanecerão lá após a importação dos dados, a menos que você os remova.
O bucket precisa estar no mesmo local que o conjunto de dados. Saiba mais.
Clique em Importar para iniciar o processo de importação.
Quando o processo de importação for concluído, a guia treinamento será exibida e você estará pronto para treinar o modelo.
REST
Importe os dados usando o método datasets.importData.
Certifique-se de que a fonte de importação esteja em conformidade com os requisitos descritos em Como preparar a fonte de importação.
Antes de usar os dados da solicitação, faça as substituições a seguir:
-
endpoint:
automl.googleapis.com
para o local global eeu-automl.googleapis.com
para a região da UE. - project-id: é seu ID do projeto no Google Cloud.
- location: o local do recurso:
us-central1
para global oueu
para a União Europeia. - dataset-id: o código do conjunto de dados. Por exemplo,
TBL6543
. - input-config: informações de local da fonte de dados:
- Para o BigQuery: { "bigquerySource": { "inputUri": "bq://projectId.bqDatasetId.bqTableId } }"
- Para o Cloud Storage: { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } }
Método HTTP e URL:
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData
Corpo JSON da solicitação:
{ "inputConfig": input-config, }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a esta:
{ "name": "projects/292381/locations/us-central1/operations/TBL6543", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2019-12-26T20:42:06.092180Z", "updateTime": "2019-12-26T20:42:06.092180Z", "cancellable": true, "worksOn": [ "projects/292381/locations/us-central1/datasets/TBL6543" ], "importDataDetails": {}, "state": "RUNNING" } }
Importar dados para um conjunto de dados é uma operação de longa duração. É possível pesquisar o status de uma operação ou esperar que ela seja retornada. Saiba mais.
Quando o processo de importação estiver concluído, você estará pronto para treinar o modelo.
Java
Se os recursos estiverem localizados na região da UE, você precisará definir o endpoint explicitamente. Saiba mais.
Node.js
Se os recursos estiverem localizados na região da UE, você precisará definir o endpoint explicitamente. Saiba mais.
Python
A biblioteca de cliente para AutoML Tables inclui outros métodos Python que simplificam o uso da API AutoML Tables. Esses métodos se referem aos conjuntos de dados e aos modelos pelos nomes e não pelos IDs. É preciso que os nomes dos conjuntos de dados e modelos sejam exclusivos. Para mais informações, consulte a Referência do cliente.
Se os recursos estiverem localizados na região da UE, você precisará definir o endpoint explicitamente. Saiba mais.
A seguir
- Treine o modelo.
- Gerencie os conjuntos de dados.
- Saiba mais sobre como usar operações de longa duração.