Como gerenciar conjuntos de dados

Um conjunto de dados contém amostras representativas do tipo de conteúdo que você quer rotular, com os rótulos de caixa delimitadora que você quer que seu modelo personalizado use. O conjunto de dados serve como entrada para treinar um modelo.

Veja a seguir as principais etapas para criar um conjunto de dados:

  1. Crie um conjunto de dados e especifique se quer permitir várias etiquetas em cada item.
  2. Importe itens de dados para o conjunto de dados.
  3. Use etiquetas nos itens.

Em muitos casos, as etapas 2 e 3 são combinadas: você importa itens de dados com as etiquetas já atribuídas.

Um projeto pode ter vários conjuntos de dados, cada um usado para treinar um modelo separado. É possível conseguir uma lista dos conjuntos de dados disponíveis e excluir conjuntos de dados que não são mais necessários.

Como criar um conjunto de dados

A primeira etapa na criação de um modelo personalizado é criar um conjunto de dados vazio que vai armazenar os dados de treinamento do modelo.

Linha de comando

No exemplo a seguir, é criado um conjunto de dados chamado vot_test_dataset, compatível com casos de uso de rastreamento de objetos. O conjunto de dados recém-criado não contém dados até que você importe itens para ele.

Salve o "name" do novo conjunto de dados (da resposta) para uso com outras operações, como importação de itens para o conjunto de dados e treinamento de um modelo.

curl \
  -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://automl.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/datasets \
  -d '{
    "displayName": "vot_test_dataset",
    "videoObjectTrackingDatasetMetadata": {
    },
  }'

O resultado será semelhante a:

{
  "name": "projects/434039606874/locations/us-central1/datasets/VOT6312181905852727296",
  "displayName": "vot_test_dataset",
  "createTime": "2019-01-09T23:42:47.664041Z",
  "videoObjectTrackingDatasetMetadata": {}
}

Como importar itens para um conjunto de dados

Depois de criar um conjunto de dados, você pode importar dados rotulados de arquivos CSV armazenados em um intervalo do Google Cloud Storage. Para mais informações sobre como preparar os dados e criar arquivos CSV para importação, consulte Como preparar dados de treinamento.

Você pode importar itens para um conjunto de dados vazio ou importar itens adicionais para um conjunto de dados existente.

Linha de comando

  • Substitua dataset-name pelo nome completo do conjunto de dados com base na resposta de quando você criou o conjunto. O nome completo tem o formato: projects/{project-id}/locations/us-central1/datasets/{dataset-id}.

  • Substitua bucket-name pelo nome do intervalo do Google Cloud Storage em que você armazenou o arquivo CSV da lista de arquivos de treinamento do modelo.

  • Substitua csv-file-name pelo nome do arquivo CSV da lista de arquivos de treinamento do modelo.

    curl \
      -X POST \
      -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
      -H "Content-Type: application/json" \
      https://automl.googleapis.com/v1beta1/dataset-name:importData \
      -d '{
        "inputConfig": {
          "gcsSource": {
             "inputUris": ["gs://bucket-name/csv-file-name.csv"]
           }
        }
      }'
    

    Um código semelhante a este será exibido. Você pode usar o código da operação para saber o status da tarefa. Para ver um exemplo, consulte Como saber o status de uma operação.

    {
      "name": "projects/434039606874/locations/us-central1/operations/VOT2066219843102703616",
      "metadata": {
        "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata",
        "createTime": "2018-10-20T00:04:10.136222Z",
        "importDataDetails": {}
      }
    }
    

Como listar conjuntos de dados

Um projeto pode incluir vários conjuntos de dados. Esta seção descreve como recuperar uma lista dos conjuntos de dados disponíveis para um projeto.

Linha de comando

curl \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://automl.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/datasets

O resultado será semelhante a:

{
  "datasets": [
    {
      "name": "projects/434039606874/locations/us-central1/datasets/VOT6312181905852727296",
      "displayName": "vot_test_dataset",
      "createTime": "2019-01-09T23:42:47.664041Z",
      "videoObjectTrackingDatasetMetadata": {}
    }
  ]
}

Como excluir um conjunto de dados

O código a seguir demonstra como excluir um conjunto de dados.

Linha de comando

  • Substitua dataset-name pelo nome completo do conjunto de dados com base na resposta de quando você criou o conjunto. O nome completo tem o formato: projects/{project-id}/locations/us-central1/datasets/{dataset-id}
curl -X DELETE \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" https://automl.googleapis.com/v1beta1/dataset-name

O resultado será semelhante a:

{
  "name": "projects/434039606874/locations/us-central1/operations/VOT3512013641657611176",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata",
    "createTime": "2019-01-09T23:42:47.664041Z",
    "updateTime": "2019-01-09T23:42:47.664041Z",
    "cancellable": true
  }
}