학습 데이터 준비
Cloud Translation은 서로 짝이 맞는 출발어와 도착어 세그먼트 쌍을 사용하여 커스텀 모델을 학습시킵니다. 각 세그먼트 쌍은 독립적인 학습 항목으로 취급되며, 서로 다른 쌍 사이에 어떠한 연관성도 가정되지 않습니다.
커스텀 모델을 학습시키는 데 사용되는 세그먼트 쌍은 탭으로 구분된 값(.tsv
) 또는 Translation Memory eXchange(.tmx
) 형식이어야 합니다.
자세한 내용은 번역 예시 준비를 참조하세요.
세그먼트 쌍은 항상 가져온 모든 쌍에서 중복 제거됩니다. 소스 쌍은 소스 세그먼트가 다른 소스 세그먼트와 일치할 때 중복 쌍으로 간주됩니다. Cloud Translation에서는 콘텐츠가 동일한 파일을 가져올 수 없습니다.
데이터 분할
AutoML Translation은 커스텀 모델을 만드는 동안 사용자가 제공하는 세그먼트 쌍을 다양한 목적으로 사용합니다.
- 학습 - 세그먼트 쌍을 이용해 모델을 학습시킵니다. 이 용도로 대부분의 데이터를 할당합니다.
- 검증 - 세그먼트 쌍을 이용해 모델이 학습 중에 반환하는 결과를 검증합니다.
- 테스트 - 세그먼트 쌍을 이용해 모델의 최종 평가 측정항목을 생성합니다. 이는 프로덕션에서 모델의 성능을 나타냅니다.
학습, 검증, 테스트 세트에 개별 파일을 업로드하여 AutoML Translation에서 각각의 용도로 사용되는 세그먼트 쌍을 제어할 수 있습니다. 이 세 가지 용도로 사용할 파일을 명시적으로 지정하지 않은 경우 AutoML Translation에서는 세그먼트 쌍을 자동으로 3세트로 나눕니다. AutoML Translation은 데이터 중 약 80%를 학습에, 10%를 검증에, 10%를 테스트에 사용합니다. AutoML Translation은 세그먼트 쌍을 3세트에 무작위로 할당합니다. 검증 및 테스트 세트에 최대 10,000개의 세그먼트 쌍을 사용할 수 있습니다. 10,000개가 넘으면 세그먼트 쌍이 학습 세트로 푸시됩니다.
동일한 데이터 세트로 여러 개의 데이터 가져오기를 수행하는 경우 하나의 가져오기에 데이터 분할을 수동으로 지정하고 다른 데이터 세트에 자동 분할을 사용할 수 있습니다. 데이터는 가져오기 및 파일 삭제 후 수동 분할과 관련하여 항상 재조정됩니다.
데이터 요구사항
학습 데이터는 다음 요구사항을 준수해야 합니다.
- AutoML Translation에서 자동으로 데이터를 분할하도록 하려면 세그먼트 쌍을 1,000개 이상 제출하여 커스텀 모델을 학습시켜야 합니다.
- 데이터를 수동으로 분할하는 경우
TRAIN
세트에 세그먼트 쌍을 최소 3개 제공해야 하며VALIDATION
과TEST
에 각각 최소 100개의 세그먼트 쌍이 있어야 합니다. TRAIN
세트에 최소 3개의 세그먼트 쌍을 제공해야 하며VALIDATION
과TEST
세트에 각각 100개 이상의 세그먼트 쌍이 있어야 합니다.VALIDATION
및TEST
세트에 각각 10,000개를 초과하는 세그먼트 쌍을 제공할 수 없습니다.- 데이터 세트는 최대 1,500만 개의 세그먼트 쌍을 초과할 수 없습니다.
데이터 권장사항
다음 권장사항은 모델의 품질을 높이는 데 도움이 될 수 있습니다.
TRAIN
에는 세그먼트 쌍 5,000개 이상,VALIDATION
에는 세그먼트 쌍 500개 이상,TEST
에는 세그먼트 쌍 500개 이상을 사용하세요. 말하자면, 가능하면 더 많은 데이터를 사용하세요.TRAIN
세트에 대한 데이터가 많으면 모델이 패턴을 학습하는 데 도움이 되고VALIDATION
와TEST
세트에 대한 데이터가 많으면 모델이 도메인의 다양한 시나리오로 일반화하는 데 도움이 됩니다.- 약 200단어 이하로 세그먼트를 유지합니다. 세그먼트가 그보다 더 길면 AutoML Translation에서 세그먼트 쌍을 삭제할 수 있습니다. 자세한 내용은 가져오기 문제를 참조하세요.
- 개요의 데이터 준비 섹션에 있는 '복잡한 데이터 정리' 부분에 설명된 대로 일반적인 소스 데이터 문제를 해결합니다.