자주 묻는 질문(FAQ)

누가 내 데이터에 라벨을 지정하나요?
Cloud 데이터 처리 추가 조항(CDPA)에 따라 공식적으로 당사의 보조 대행업체가 된 주요 공급업체는 GlobalLogic Technologies Ltd와 Teleperformance Global Services 두 곳입니다. 이러한 소스에는 CDPA에 명시된 모든 관련 표준 보조 대행업체 보안 및 규정 준수 의무가 부여됩니다.

내 데이터의 보안 및 보호에 대한 정보가 제공될 소지가 있나요?
AI Platform 데이터 라벨링 서비스에서 사용되고 Google Cloud에 저장되는 모든 데이터는 기본적으로 암호화됩니다. 수동 라벨러는 라벨을 지정하는 동안에만 데이터를 볼 수 있습니다. Google은 귀하의 허락 없이 요청된 데이터 라벨 지정 이외의 목적으로 귀하의 데이터를 공개하거나 사용하지 않습니다. 데이터 라벨링 서비스에서 라벨이 지정된 데이터 세트를 삭제하면 24시간 이내에 Google 시스템의 모든 데이터 사본에 대한 삭제 작업이 시작됩니다. Google은 데이터 손실, 무단 액세스 또는 스팸을 방지하기 위한 보안 조치를 시행합니다.

의료 데이터에 라벨을 지정할 수 있나요?
예. AI Platform 데이터 라벨링 서비스는 HIPAA를 준수하며 의료 데이터에 라벨을 지정하는 데 사용될 수 있습니다.

라벨 지정 품질을 보장하기 위해 사용할 수 있는 품질관리(QC) 방법은 무엇인가요?

개발자는 여러 명의 수동 라벨러에게 데이터의 각 부분에 주석을 달도록 요청할 수 있습니다. 라벨 지정에 이견이 있다면 합의점에 도달하거나 개발자가 설정한 최대 라벨러 수에 도달할 때까지 Google에서 다른 라벨러에게 추가적인 의견을 구할 것입니다.

예를 들어 라벨러 3명을 요청하면 다음과 같이 됩니다.

  1. 이미지 분류 태스크의 경우 라벨러 3명 모두에게 각 이미지를 분류하도록 하고 다수결 원칙에 따라 최종 답을 결정합니다.
  2. 이미지 경계 상자 태스크의 경우 첫 번째 라벨러가 상자를 그리고 두 번째 라벨러가 이를 확인하도록 합니다. 두 번째 라벨러가 동의하지 않고 수정하면 과반수 의견을 얻기 위해 세 번째 라벨러에게 넘어갑니다.
안내는 라벨러에게 데이터 세트에 라벨을 지정하는 방법을 설명하는 내용을 담고 있어 라벨 지정 결과에 매우 중요합니다. 따라서 유익한 안내를 작성하는 방법에 대한 을 살펴보시기 바랍니다. 안내의 내용이 불분명하다면 알려드리겠습니다.
또한 데이터 라벨 지정 작업을 점진적으로 늘리는 것이 좋습니다. 소량의 데이터로 첫 번째 라벨 지정 작업을 시작한 다음 원하는 결과가 나오는지 확인합니다. 의견과 결과에 따라 안내를 수정한 다음 대용량 데이터 전송이 수월해질 때까지 반복할 후속 작업을 만드세요. 이렇게 하면 고품질의 결과를 얻고 예산을 최대한 활용할 수 있습니다.

'태스크(task)'와 '작업(operation)'은 어떻게 다른가요?
태스크는 데이터 가져오기, 데이터 내보내기, 라벨 지정 요청처럼 데이터 라벨링 서비스를 이용하여 수행하는 활동입니다. 작업은 API 호출을 이용해 요청한 태스크를 완료하는 Google 장기 실행 작업입니다.

가져오기, 내보내기 또는 라벨 지정과 같은 작업이 완료됐다는 것을 어떻게 알 수 있나요?
데이터 라벨링 서비스 API를 이용해 가져오기, 내보내기 또는 라벨 지정을 요청하면 응답에는 요청한 태스크를 완료하는 작업의 이름이 포함됩니다. 작업 이름을 이용하여 요청 상태를 확인할 수 있습니다.
작업이 실행되는 동안에는 progressPercent 필드에 진행률이 표시됩니다(필드가 표시되지 않는다면 진행률이 0%인 것임). 작업이 완료되면 응답에 "done": true 값이 포함됩니다.
작업이 완료될 때마다 이메일이 전송됩니다.

라벨 지정 요청 후 주석 달린 데이터 세트의 ID를 얻으려면 어떻게 해야 하나요?
ListAnnotatedDatasets가 주석 달린 데이터 세트의 이름을 반환합니다. 이름 형식은 projects/sample_project_id/datasets/test_dataset_id/annotatedDatasets/sample_id입니다. 여기서 ID는 annotatedDataSets/ 뒤에 표시되는 값입니다.

'요청한 리소스 액세스를 처리할 수 없습니다. 리소스 충돌 때문에 이 요청이 거절되었습니다.'라는 메시지와 함께 HttpError 404 오류가 발생했습니다. 무슨 뜻인가요?
실행 중인 다른 작업이 리소스를 사용 중이라는 뜻입니다. 예를 들어 데이터 가져오기 작업이 완료되기 전에 라벨 지정을 요청하면 이 오류가 발생합니다.

데이터 세트/안내/라벨 지정 태스크를 삭제할 수 없는 이유는 무엇인가요?
실행 중인 작업이 리소스를 사용 중이라 리소스 충돌이 발생했을 가능성이 큽니다.

라벨 세트를 생성하려면 모든 라벨을 한 번에 하나씩 수동으로 입력해야 하나요?
AI Platform 데이터 라벨링 서비스 UI를 사용한다면 그렇게 해야 합니다. API를 사용한다면 인수를 원하는 만큼 프로그래매틱 방식으로 전달할 수 있습니다.

이미지 경계 상자 데이터 라벨 지정 요청이 주석 없이 몇 분 안에 반환되는 이유는 무엇인가요?
지원되지 않는 이미지 형식일 가능성이 가장 큽니다.

라벨 지정 태스크를 전송했는데도 진행률이 계속 0%인 이유는 무엇인가요?
가능한 이유는 두 가지입니다. 자세한 내용은 cloudml-data-customer@google.com으로 문의하세요.
  • 전송한 요청이 많아 태스크가 아직 선택되지 않았습니다. 태스크는 큐에 있으며 가능한 빨리 시작됩니다.
  • 항목별로 여러 라벨러를 요청했지만 일부 라벨러가 데이터 항목에 라벨을 지정하지 않았습니다. 예를 들어 라벨러 3명을 요청했다면 데이터 항목은 라벨러 3명 전원이 라벨 지정을 완료해야 완료 상태로 표시됩니다. 라벨러 1~2명이 모든 데이터 항목에 라벨을 지정해도 진행률은 계속 0%로 표시됩니다.