데이터세트 관리

데이터세트에는 라벨을 지정할 콘텐츠 유형의 대표 샘플과 커스텀 모델에서 사용할 경계 상자 라벨이 들어 있습니다. 데이터세트는 모델 학습을 위한 입력으로 사용됩니다.

데이터세트 구축을 위한 주요 단계는 다음과 같습니다.

  1. 데이터세트 생성 및 각 항목에 여러 개의 라벨을 적용할지 여부를 지정
  2. 데이터세트로 데이터 항목 가져오기
  3. 항목 라벨 지정

대부분의 경우 2단계와 3단계가 결합되어, 라벨이 지정된 상태에서 데이터 항목을 가져옵니다.

프로젝트에는 여러 개의 데이터세트를 적용할 수 있으며 각 데이터세트는 별도의 모델 학습에 사용됩니다. 사용 가능한 데이터세트 목록을 가져오거나 더 이상 필요하지 않은 데이터세트를 삭제할 수 있습니다.

데이터세트 만들기

커스텀 모델을 생성하는 첫 단계는 모델 학습용 데이터를 저장할 비어 있는 데이터세트를 만드는 것입니다.

명령줄

다음 예에서는 객체 추적 사용 사례를 지원하는 vot_test_dataset라는 데이터세트를 만듭니다. 새로 생성된 데이터세트에는 항목을 가져올 때까지 데이터가 포함되어 있지 않습니다.

데이터세트로 항목 가져오기나 모델 학습과 같은 다른 작업에 사용할 수 있도록 (응답에서) 새 데이터세트의 "name"을 저장합니다.

curl \
  -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://automl.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/datasets \
  -d '{
    "displayName": "vot_test_dataset",
    "videoObjectTrackingDatasetMetadata": {
    },
  }'

다음과 비슷한 출력이 표시됩니다.

{
  "name": "projects/434039606874/locations/us-central1/datasets/VOT6312181905852727296",
  "displayName": "vot_test_dataset",
  "createTime": "2019-01-09T23:42:47.664041Z",
  "videoObjectTrackingDatasetMetadata": {}
}

데이터세트로 항목 가져오기

데이터세트를 만든 후에는 Google Cloud Storage 버킷에 저장된 CSV 파일에서 라벨이 지정된 데이터를 가져올 수 있습니다. 데이터 준비 및 가져올 CSV 파일 만들기에 대한 자세한 내용은 학습 데이터 준비를 참조하세요.

항목을 비어 있는 데이터세트로 가져오거나 추가 항목을 기존 데이터세트로 가져올 수 있습니다.

명령줄

  • 데이터세트를 만들 때 응답에서 dataset-name을 데이터세트의 전체 이름으로 바꿉니다. 전체 이름의 형식은 다음과 같습니다. projects/{project-id}/locations/us-central1/datasets/{dataset-id}

  • bucket-name은 모델 학습 파일 목록 CSV 파일을 저장한 Google Cloud Storage 버킷의 이름으로 바꿉니다.

  • csv-file-name을 모델 학습 파일 목록 CSV 파일의 이름으로 바꿉니다.

    curl \
      -X POST \
      -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
      -H "Content-Type: application/json" \
      https://automl.googleapis.com/v1beta1/dataset-name:importData \
      -d '{
        "inputConfig": {
          "gcsSource": {
             "inputUris": ["gs://bucket-name/csv-file-name.csv"]
           }
        }
      }'
    

    다음과 비슷한 출력이 표시됩니다. 작업 ID를 사용하여 작업 상태를 가져올 수 있습니다. 예제를 보려면 작업 상태 가져오기를 참조하세요.

    {
      "name": "projects/434039606874/locations/us-central1/operations/VOT2066219843102703616",
      "metadata": {
        "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata",
        "createTime": "2018-10-20T00:04:10.136222Z",
        "importDataDetails": {}
      }
    }
    

데이터세트 나열

프로젝트에는 수많은 데이터세트가 포함될 수 있습니다. 이 섹션에서는 프로젝트에 사용할 수 있는 데이터세트의 목록을 검색하는 방법에 대해 설명합니다.

명령줄

curl \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  https://automl.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/datasets

다음과 비슷한 출력이 표시됩니다.

{
  "datasets": [
    {
      "name": "projects/434039606874/locations/us-central1/datasets/VOT6312181905852727296",
      "displayName": "vot_test_dataset",
      "createTime": "2019-01-09T23:42:47.664041Z",
      "videoObjectTrackingDatasetMetadata": {}
    }
  ]
}

데이터세트 삭제

다음 코드는 데이터세트를 삭제하는 방법을 보여줍니다.

명령줄

  • 데이터세트를 만들 때 응답에서 dataset-name을 데이터세트의 전체 이름으로 바꿉니다. 전체 이름의 형식은 다음과 같습니다. projects/{project-id}/locations/us-central1/datasets/{dataset-id}
curl -X DELETE \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" https://automl.googleapis.com/v1beta1/dataset-name

다음과 비슷한 출력이 표시됩니다.

{
  "name": "projects/434039606874/locations/us-central1/operations/VOT3512013641657611176",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata",
    "createTime": "2019-01-09T23:42:47.664041Z",
    "updateTime": "2019-01-09T23:42:47.664041Z",
    "cancellable": true
  }
}