학습 데이터 준비

Cloud Translation은 서로 짝이 맞는 출발어와 도착어 세그먼트 쌍을 사용하여 커스텀 모델을 학습시킵니다. 각 세그먼트 쌍은 독립적인 학습 항목으로 취급되며, 서로 다른 쌍 사이에 어떠한 연관성도 가정되지 않습니다.

커스텀 모델을 학습시키는 데 사용되는 세그먼트 쌍은 탭으로 구분된 값(.tsv) 또는 번역 메모리 eXchange(.tmx) 형식이어야 합니다. Google Cloud 콘솔을 사용하여 개별 TSV 또는 TMX 파일을 가져올 수 있습니다.

세그먼트 쌍은 항상 가져온 모든 쌍에서 중복 제거됩니다. 소스 쌍은 소스 세그먼트가 다른 소스 세그먼트와 일치할 때 중복 쌍으로 간주됩니다. Cloud Translation에서는 콘텐츠가 동일한 파일을 가져올 수 없습니다.

지원되는 언어 조합 목록은 커스텀 모델 언어 지원을 참조하세요.

데이터 분할

AutoML Translation은 커스텀 모델을 만드는 동안 사용자가 제공하는 세그먼트 쌍을 다양한 목적으로 사용합니다.

  • 학습 - 세그먼트 쌍을 이용해 모델을 학습시킵니다. 이 용도로 대부분의 데이터를 할당합니다.
  • 검증 - 세그먼트 쌍을 이용해 모델이 학습 중에 반환하는 결과를 검증합니다.
  • 테스트 - 세그먼트 쌍을 이용해 모델의 최종 평가 측정항목을 생성합니다. 이는 프로덕션에서 모델의 성능을 나타냅니다.

학습, 검증, 테스트 세트에 개별 파일을 업로드하여 AutoML Translation에서 각각의 용도로 사용되는 세그먼트 쌍을 제어할 수 있습니다. 이 세 가지 용도로 사용할 파일을 명시적으로 지정하지 않은 경우 AutoML Translation에서는 세그먼트 쌍을 자동으로 3세트로 나눕니다. AutoML Translation은 데이터 중 약 80%를 학습에, 10%를 검증에, 10%를 테스트에 사용합니다. AutoML Translation은 세그먼트 쌍을 3세트에 무작위로 할당합니다. 검증 및 테스트 세트에 최대 10,000개의 세그먼트 쌍을 사용할 수 있습니다. 10,000개가 넘으면 세그먼트 쌍이 학습 세트로 푸시됩니다.

동일한 데이터 세트로 여러 개의 데이터 가져오기를 수행하는 경우 하나의 가져오기에 데이터 분할을 수동으로 지정하고 다른 데이터 세트에 자동 분할을 사용할 수 있습니다. 데이터는 가져오기 및 파일 삭제 후 수동 분할과 관련하여 항상 재조정됩니다.

데이터 요구사항

학습 데이터는 다음 요구사항을 준수해야 합니다.

  • AutoML Translation에서 자동으로 데이터를 분할하도록 하려면 세그먼트 쌍을 1,000개 이상 제출하여 커스텀 모델을 학습시켜야 합니다.
  • 데이터를 수동으로 분할하는 경우 TRAIN 세트에 세그먼트 쌍을 최소 3개 제공해야 하며 VALIDATIONTEST에 각각 최소 100개의 세그먼트 쌍이 있어야 합니다.
  • TRAIN 세트에 최소 3개의 세그먼트 쌍을 제공해야 하며 VALIDATIONTEST 세트에 각각 100개 이상의 세그먼트 쌍이 있어야 합니다.
  • VALIDATIONTEST 세트에 각각 10,000개를 초과하는 세그먼트 쌍을 제공할 수 없습니다.
  • 데이터 세트는 최대 1,500만 개의 세그먼트 쌍을 초과할 수 없습니다.

데이터 권장사항

다음 권장사항은 모델의 품질을 높이는 데 도움이 될 수 있습니다.

  • TRAIN에는 세그먼트 쌍 5,000개 이상, VALIDATION에는 세그먼트 쌍 500개 이상, TEST에는 세그먼트 쌍 500개 이상을 사용하세요. 말하자면, 가능하면 더 많은 데이터를 사용하세요. TRAIN 세트에 대한 데이터가 많으면 모델이 패턴을 학습하는 데 도움이 되고 VALIDATIONTEST 세트에 대한 데이터가 많으면 모델이 도메인의 다양한 시나리오로 일반화하는 데 도움이 됩니다.
  • 약 200단어 이하로 세그먼트를 유지합니다. 세그먼트가 그보다 더 길면 AutoML Translation에서 세그먼트 쌍을 삭제할 수 있습니다. 자세한 내용은 가져오기 문제를 참조하세요.
  • 개요의 데이터 준비 섹션에 있는 '복잡한 데이터 정리' 부분에 설명된 대로 일반적인 소스 데이터 문제를 해결합니다.

탭으로 구분된 값(TSV)

AutoML Translation은 각 행의 형식이 다음과 같은, 탭으로 구분된 파일을 지원합니다.

  • Source segment Translated segment

예를 들면 다음과 같습니다.

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

TSV 파일의 모든 텍스트는 일반 텍스트여야 합니다. 텍스트에 HTML 태그 또는 다른 마크업이 포함되어 있는 경우 AutoML Translation에서는 마크업을 일반 텍스트로 처리합니다. 앞의 예시에서 출발어는 영어이고 도착어는 독일어입니다.

출발어와 도착어를 식별하는 언어 코드가 포함된 헤더 행을 포함하지 마세요. 모델을 학습시킬 때 출발어 및 도착어 코드를 지정합니다.

Translation Memory eXchange(TMX)

TMX는 소스 및 대상 번역 세그먼트를 제공하기 위한 표준 XML 형식입니다. AutoML Translation은 TMX 버전 번호 1.4를 기반으로 하는 형식의 입력 파일을 지원합니다. 다음은 필수 구성을 보여주는 예시입니다.

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

올바른 형식의 TMX 파일에서 <header> 요소는 srclang 속성을 사용하여 출발어를 지정해야 하고, 모든 <tuv> 요소는 xml:lang 속성을 사용하여 포함된 텍스트의 언어를 지정해야 합니다.

모든 <tu> 요소에는 출발어와 도착어가 동일한 <tuv> 요소 쌍이 포함되어야 합니다. <tu> 요소에 <tuv> 요소가 3개 이상 포함되어 있으면 AutoML Translation은 출발어 및 도착어와 일치하는 첫 번째 <tuv> 요소만 처리하고 나머지는 무시합니다. <tu> 요소에 일치하는 <tuv> 요소 쌍이 없으면 AutoML Translation이 올바르지 않은 <tu> 요소를 건너뜁니다.

AutoML Translation에서는 <seg> 요소를 처리하기 전에 주위의 마크업 태그를 제거합니다. <tuv> 요소에 2개 이상의 <seg> 요소가 포함된 경우 AutoML Translation은 사이에 공백이 있는 단일 요소로 텍스트를 연결합니다.

위에 표시되지 않은 XML 태그가 파일에 포함되어 있으면 AutoML Translation은 해당 태그를 무시합니다.

파일이 올바른 XML 및 TMX 형식을 따르지 않는 경우(예: 종료 태그 또는 <tmx> 요소가 없는 경우) AutoML Translation은 해당 요소 처리를 취소합니다. AutoML Translation은 잘못된 <tu> 요소를 1,024개 넘게 건너뛴 경우에도 처리를 중단합니다.