학습 데이터 준비

커스텀 모델을 학습하려면 AutoML Natural Language를 통해 유사한 문서에 라벨을 지정하는 방식으로 라벨을 지정해 분석할 문서 유형의 대표 샘플을 제공합니다. 학습 데이터의 품질은 생성하는 모델의 효율성에 상당한 영향을 주며, 나아가 모델에서 반환한 예측의 품질에도 영향을 줍니다.

학습 문서 수집 및 라벨링

첫 단계는 커스텀 모델에서 처리할 문서 범위가 반영된 다양한 학습 문서 세트를 수집하는 것입니다. 학습 문서의 준비 단계는 분류, 항목 추출 또는 감정 분석 중 어떤 모델을 학습할지에 따라 다릅니다.

학습 문서 가져오기

문서를 나열하고 카테고리 라벨 또는 감정 값을 선택적으로 포함하는 CSV 파일을 사용하여 학습 데이터를 AutoML Natural Language로 가져올 수 있습니다. AutoML Natural Language는 나열된 문서에서 데이터세트를 만듭니다.

학습 데이터와 평가 데이터

AutoML Natural Language는 학습 문서를 학습 세트, 검증 세트, 테스트 세트라는 3가지 학습 모델 세트로 나눕니다.

AutoML Natural Language는 학습 세트를 사용하여 모델을 빌드합니다. 모델은 여러 알고리즘과 매개변수를 시도하면서 학습 데이터의 패턴을 찾습니다. 패턴이 발견되면 모델은 검증 세트를 사용하여 알고리즘과 패턴을 테스트합니다. AutoML Natural Language는 학습 단계에서 식별된 것 중에서 성능이 가장 우수한 알고리즘과 패턴을 선택합니다.

성능이 가장 우수한 알고리즘과 패턴이 식별되면 AutoML Natural Language는 이 요소를 테스트 세트에 적용하여 오류율, 품질, 정확성을 테스트합니다.

기본적으로 AutoML Natural Language은 학습 데이터를 무작위로 3가지 세트로 분할합니다.

  • 문서 중 80%는 학습에 사용됩니다.
  • 문서 중 10%는 검증에 사용됩니다(초매개변수 미세 조정 또는 학습 중지 시점 결정).
  • 문서 중 10%는 학습에 사용하는 대신 테스트용으로 예약됩니다.

학습 데이터의 각 문서가 속하게 될 세트를 지정하려는 경우 다음 섹션의 설명대로 문서를 CSV 파일로 된 세트에 명시적으로 할당할 수 있습니다.

가져오기 CSV 파일 만들기

모든 학습 문서를 수집했으면 이 문서가 모두 나열된 CSV 파일을 만듭니다. CSV 파일의 이름에는 제한이 없지만 UTF-8로 인코딩되고 .csv 확장자로 끝나야 합니다. 프로젝트와 연결된 Cloud Storage 버킷에 저장해야합니다.

CSV 파일에는 학습 문서마다 행이 하나씩 있으며, 각 행에는 다음과 같은 열이 있습니다.

  1. 행에 지정된 콘텐츠의 집합. 이 열은 선택사항이며 다음 값 중 하나일 수 있습니다.

    • TRAIN - document을 사용하여 모델을 학습시킵니다.
    • VALIDATION - document을 사용하여 학습 중에 모델이 반환하는 결과를 검증합니다.
    • TEST - document을 사용하여 모델이 학습된 후 모델의 결과를 확인합니다.

    이 열에 값을 포함하여 세트를 지정하려면 카테고리별로 데이터의 5% 이상을 식별하는 것이 좋습니다. 학습, 검증 또는 테스트에 사용되는 데이터가 5%에 미달하면 예기치 않은 결과가 나타나고 모델의 효율성이 떨어질 수 있습니다.

    이 열에 값을 포함하지 않은 경우에는 각 행을 쉼표로 시작하여 비어 있는 첫 번째 열을 나타냅니다. AutoML Natural Language는 문서를 자동으로 3가지 세트로 구분하며, 데이터 중 약 80%를 학습에, 10%를 검증에, 10%를 테스트 용도로 사용합니다. 검증 및 테스트에는 최대 10,000개 쌍을 사용할 수 있습니다.

  2. 분류 대상 콘텐츠 이 열에는 문서의 Cloud Storage URI가 포함됩니다. Cloud Storage URI는 대소문자를 구분합니다.

    분류 및 감정 분석의 경우 문서는 텍스트 파일, PDF 파일, TIFF 파일 또는 ZIP 파일일 수 있고, 엔티티 추출의 경우 JSONL 파일입니다.

    분류 및 감정 분석의 경우 이 열의 값은 Cloud Storage URI가 아닌 인라인 텍스트로 인용될 수 있습니다.

  3. 분류 데이터세트의 경우 선택적으로 문서 분류 방법을 식별하는 라벨 목록을 쉼표로 구분하여 포함할 수 있습니다. 라벨은 문자로 시작해야 하며 문자, 숫자, 밑줄만 포함할 수 있습니다. 각 문서에 최대 20개의 라벨을 포함할 수 있습니다.

    감정 분석 데이터세트의 경우 선택적으로 콘텐츠에 대한 감정 값을 나타내는 정수를 포함할 수 있습니다. 감정 값의 범위는 0(매우 부정적 감정)에서 최대 10(매우 긍정적 감정)까지입니다.

예를 들어 다중 라벨 분류 데이터세트의 CSV 파일에는 다음이 포함될 수 있습니다.

TRAIN, gs://my-project-lcm/training-data/file1.txt,Sports,Basketball
VALIDATION, gs://my-project-lcm/training-data/ubuntu.zip,Computers,Software,Operating_Systems,Linux,Ubuntu
TRAIN, gs://news/documents/file2.txt,Sports,Baseball
TEST, "Miles Davis was an American jazz trumpeter, bandleader, and composer.",Arts_Entertainment,Music,Jazz
TRAIN,gs://my-project-lcm/training-data/astros.txt,Sports,Baseball
VALIDATION,gs://my-project-lcm/training-data/mariners.txt,Sports,Baseball
TEST,gs://my-project-lcm/training-data/cubs.txt,Sports,Baseball

일반적인 .csv 오류

  • 라벨에 유니코드 문자 사용. 예를 들어 일본어 문자는 지원되지 않습니다.
  • 라벨에 공백 및 영숫자가 아닌 문자 사용
  • 빈 줄
  • 빈 열(줄에 쉼표가 연속으로 두 개 나오는 경우)
  • 쉼표를 포함해 삽입된 텍스트에 따옴표 누락
  • Cloud Storage 경로의 대소문자가 잘못되었습니다.
  • 문서에 대한 액세스 제어 구성 오류. 서비스 계정에 읽기 이상의 액세스 권한이 있거나 파일이 공개 읽기가 가능한 상태여야 합니다.
  • 문서가 아닌 파일 참조(PDF, PSD 파일 등). 마찬가지로 문서 파일이 아니지만 문서 파일처럼 확장자를 붙인 파일도 오류의 원인이 됩니다.
  • 현재 프로젝트와 다른 버킷을 가리키는 문서의 URI. 프로젝트 버킷에 있는 파일만 액세스할 수 있습니다.
  • CSV 형식이 아닌 파일

가져오기 ZIP 파일 만들기

분류 데이터세트의 경우 ZIP 파일을 사용하여 학습 문서를 가져올 수 있습니다. ZIP 파일에서 라벨 또는 감정 값마다 하나의 폴더를 만들고 각 문서를 해당 문서에 적용할 라벨 또는 값에 해당하는 폴더에 저장합니다. 예를 들어 비즈니스 서신을 분류하는 모델용 ZIP 파일의 구조는 다음과 같습니다.

correspondence.zip
    transactional
        letter1.pdf
        letter2.pdf
        letter5.pdf
    persuasive
        letter3.pdf
        letter7.pdf
        letter8.pdf
    informational
        letter6.pdf
    instructional
        letter4.pdf
        letter9.pdf

AutoML Natural Language는 폴더 이름을 폴더의 문서에 라벨로 적용합니다. 감정 분석 데이터세트의 폴더 이름은 다음과 같이 감정 값입니다.

sentiment.zip
    0
        document4.txt
    1
        document3.txt
        document1.txt
        document5.txt
    2
        document2.txt
        document6.txt
        document8.txt
        document9.txt
    3
        document7.txt

다음 단계