데이터 라벨 지정이란 무엇인가요?

데이터 라벨 지정은 원시 데이터에 의미 있는 라벨로 주석을 작성하여 머신러닝(ML) 모델에서 이해할 수 있는 컨텍스트와 분류를 제공합니다. 이러한 라벨은 필수 ML 모델 가이드 역할을 하므로 ML 모델에서 데이터를 효과적으로 해석할 수 있습니다. 이미지 인식에서 '고양이' 또는 '개'와 같은 라벨은 객체 카테고리를 정의하는 반면, 텍스트 분석에서는 라벨이 감정이나 이름이 지정된 항목을 나타냅니다. 

데이터 라벨 지정은 원시 데이터를 ML 모델에서 알 수 있는 형식으로 변환하여 패턴 인식과 예측 기능을 지원합니다.

데이터 라벨 지정이 중요한 이유

데이터 라벨 지정은 여러 가지 이유로 인해 머신러닝에서 중요한 역할을 합니다. 지도 ML 모델에 중요한 학습 데이터를 제공하므로 지도 ML 모델에서 라벨이 지정된 예시로부터 패턴을 학습하고 예측할 수 있습니다. 라벨이 지정된 고품질 데이터를 사용하면 명확하고 일관된 학습 신호가 제공되어 모델 정확성이 향상됩니다. 

또한 데이터 라벨 지정은 데이터 세트의 대표성과 균형을 보장하고 모델이 편향을 상속하지 못하도록 하므로 편향을 완화하는 데 중요한 역할을 합니다. 또한 라벨이 지정된 데이터는 자동 데이터 처리 및 분석을 지원하며 이를 통해 머신이 방대한 양의 데이터에서 유용한 정보를 효율적으로 처리하고 추출할 수 있으므로 수동 방식보다 시간과 노력을 절약할 수 있습니다.

데이터 라벨 지정 작동 방식

데이터 라벨 지정 프로세스에는 설정된 가이드라인이나 규칙에 따라 사전 정의된 라벨을 데이터 포인트에 할당하는 작업이 포함됩니다. 사람 주석 작성자가 수동으로 수행하거나 소프트웨어나 알고리즘을 사용하는 자동 방법을 통해 이 태스크를 수행할 수 있습니다. 수동 라벨 지정에는 지정된 가이드라인에 따라 개별 사용자가 직접 라벨을 검토하고 할당하는 작업이 포함됩니다. 이 방식은 높은 정확성을 보장하는 경우가 많지만 시간과 노동력을 많이 소모할 수 있습니다.

자동 라벨 지정에서는 소프트웨어나 알고리즘을 활용하여 프로세스를 자동화하므로 효율성이 증가할 수 있습니다. 그러나 자동 방법에서 오류나 편향이 발생할 수 있으므로 신중한 평가와 품질관리 조치가 필요합니다.

경우에 따라 하이브리드 방식은 수동 방식과 자동 방식을 결합하여 정확성과 효율성 간의 균형을 유지합니다. 예를 들어 인간 주석 작성자가 데이터 하위 집합에 라벨을 지정하여 고품질 학습 데이터 세트를 만든 후 자동 라벨 지정 시스템을 학습시키는 데 사용할 수 있습니다. 그러면 이 시스템에서 더욱 효율적으로 대규모 데이터 세트에 라벨을 지정하면서 적절한 정확성을 유지할 수 있습니다.

라벨이 할당되면 원래 원시 데이터와 통합되어 라벨이 지정된 데이터 세트를 만듭니다. 그런 다음 라벨이 지정된 데이터는 머신러닝 모델 학습을 위한 입력으로 사용됩니다.

데이터 라벨 지정 유형

이미지 라벨 지정

객체 감지(이미지 내 객체 식별), 이미지 분할(이미지를 의미 있는 영역으로 분할), 장면 인식(이미지의 전반적인 맥락 이해)과 같은 태스크를 위해 이미지에 라벨을 할당합니다.

텍스트 라벨 지정

감정 분석(정서적 어조 결정), 명명된 항목 인식(사람, 위치 또는 조직 식별), 텍스트 요약(텍스트의 핵심 내용 요약)을 포함하여 태스크용 텍스트 데이터에 라벨을 지정합니다.

오디오 라벨 지정

음성 인식(오디오를 텍스트로 변환), 감정 감지(오디오로 전달되는 감정 식별), 음악 장르 분류(음악 장르에 따라 음악 분류)와 같은 애플리케이션용 오디오 파일에 라벨을 할당합니다.

동영상 라벨 지정

객체 추적(프레임 간에 이동할 때 객체를 따라감), 동작 인식(동영상에서 수행된 동작 식별), 장면 세분화(동영상을 여러 장면으로 분할)과 같은 태스크용 동영상에 라벨을 지정합니다.

시계열 라벨 지정

센서 데이터 또는 재무 데이터와 같이 시계열 데이터의 데이터 포인트에 라벨을 할당합니다. 이를 통해 시간 경과에 따른 트렌드, 패턴, 이상치를 파악할 수 있습니다.

데이터 라벨 지정 방식

수동 라벨 지정:

  •  인간 주석 작성자가 수동으로 라벨을 검토하고 각 데이터 포인트에 할당
  •  인간 판단과 세부정보에 대한 어텐션으로 높은 정확성과 품질 보장
  •  하지만 특히 대규모 데이터 세트의 경우 시간, 노동력, 비용이 많이 들 수 있음

자동 라벨 지정:

  •  소프트웨어 도구나 알고리즘에서 라벨 지정 프로세스 자동화
  •  효율성 크게 향상 및 인간 노동력 감소
  •  자동화된 알고리즘 제한사항으로 인해 오류나 편향이 발생할 수 있으므로 신중한 평가 및 품질관리 조치 필요

하이브리드 방식:

  •  수동 및 자동 라벨 지정 방법 결합
  •  데이터 하위 집합에 인간 주석 작성자를 활용하여 고품질 학습 데이터 세트를 만들어 정확성과 효율성 간의 균형 유지
  •  그런 다음 자동 방법을 사용하여 라벨 지정을 더 큰 데이터 세트로 확장하면서 합당한 정확성 유지

ML을 위해 데이터에 라벨을 지정하는 방법

  1. 라벨 지정 가이드라인 정의: 라벨 정의, 기준, 특이 사례를 포함하여 주석 작성자가 따라야 하는 명확하고 포괄적인 가이드라인을 설정합니다.
  2. 라벨 지정 도구 선택: 데이터 유형 및 라벨 지정 태스크 요구사항을 지원하는 적절한 라벨 지정 도구나 플랫폼을 선택합니다.
  3. 주석 작성자 교육: 라벨 지정 가이드라인에 대한 주석 작성자 교육을 진행하고 예시를 제공하며 태스크를 철저하게 이해하도록 합니다.
  4. 품질관리 구현: 무작위 검사, 주석 작성자 간 동의, 자동 유효성 검사 규칙 등 라벨의 정확성과 일관성을 확인하는 메커니즘을 설정합니다.
  5. 데이터 수집 및 주석 작성: 라벨을 지정해야 하는 데이터를 수집하여 설정된 프로세스에 따라 주석 작성자에게 할당합니다.
  6. 반복 및 조정: ML 모델에서 라벨이 지정된 데이터의 성능을 정기적으로 평가하고 정확성이 개선되도록 필요에 따라 라벨 지정 가이드라인과 프로세스를 조정합니다.

데이터 라벨 지정 권장사항

  • 명확한 가이드라인 설정: 주석 작성자에게 명확하고 포괄적인 라벨 지정 안내를 제공하므로 라벨, 기준, 특이 사례를 명확하게 정의할 수 있습니다.
  • 데이터 다양성 및 균형 보장: 대표적이고 균형 잡힌 데이터 세트를 사용하여 라벨이 지정된 데이터와 후속 ML 모델의 편향을 방지합니다.
  • 품질관리 구현: 주석 작성자 전체 라벨의 정확성과 일관성이 보장되도록 엄격한 품질 검사 및 확인 메커니즘을 구현합니다.
  • 데이터 개인 정보 보호: 개인 정보 보호 규정과 윤리 규범을 준수하여 라벨 지정 프로세스 중에 민감한 정보를 보호합니다.
  • 반복 및 조정: ML 모델에서 라벨이 지정된 데이터의 성능을 정기적으로 평가하고 정확성과 효과가 개선되도록 필요에 따라 라벨 지정 가이드라인과 프로세스를 조정합니다.
  • 특수 도구 및 플랫폼 사용: 주석 관리, 품질관리, 공동작업 기능과 같은 기능을 제공하는 전용 데이터 라벨 지정 도구와 플랫폼을 활용합니다.
  • 주석 작성자 교육 및 지원: 주석 작성자가 라벨 지정 태스크를 효과적으로 수행하는 데 필요한 기술과 이해를 갖추도록 적절한 교육과 지원을 제공합니다.

Google Cloud로 비즈니스 문제 해결

신규 고객에게는 Google Cloud에서 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
Google Cloud 영업 전문가에게 고유한 문제에 대해 자세히 논의해 보세요.

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
Google Cloud