Cloud Translation은 출발어와 도착어로 작성되고 의미가 일치하는 세그먼트 쌍을 사용하여 커스텀 모델을 학습시킵니다. 각 세그먼트 쌍은 독립적인 학습 항목으로 취급되며, 서로 다른 쌍 사이에 어떠한 연관성도 가정되지 않습니다.
커스텀 모델을 학습시키는 데 사용되는 세그먼트 쌍은 탭으로 구분된 값(.tsv) 또는 Translation Memory eXchange(.tmx) 형식이어야 합니다.
자세한 내용은 번역 예시 준비를 참조하세요.
세그먼트 쌍은 항상 가져온 모든 쌍에서 중복 제거됩니다. 세그먼트 쌍은 출발어 세그먼트가 다른 출발어 세그먼트와 일치할 때 중복 쌍으로 처리됩니다. Cloud Translation에서는 콘텐츠가 동일한 파일을 가져올 수 없습니다.
데이터 분할
AutoML Translation은 커스텀 모델을 만들 때 다음과 같은 다양한 목적으로 제공된 세그먼트 쌍을 사용합니다.
학습 - 세그먼트 쌍을 이용해 모델을 학습시킵니다. 이 목적으로 대부분의 데이터를 할당합니다.
검증 - 세그먼트 쌍을 이용해 모델이 학습 중에 반환하는 결과를 검증합니다.
테스트 - 세그먼트 쌍을 이용해 모델의 최종 평가 측정항목을 생성합니다. 이는 프로덕션에서 모델의 성능을 나타냅니다.
학습, 검증, 테스트 세트에 개별 파일을 업로드하여 AutoML Translation에서 각각의 용도로 사용되는 세그먼트 쌍을 제어할 수 있습니다. 이 세 가지 용도로 사용할 파일을 명시적으로 지정하지 않은 경우 AutoML Translation에서는 세그먼트 쌍을 자동으로 3세트로 나눕니다. AutoML Translation은 데이터 중 약 80%를 학습에, 10%를 검증에, 10%를 테스트에 사용합니다. AutoML Translation은 세그먼트 쌍을 3세트에 무작위로 할당합니다. 검증 및 테스트 세트에 최대 10,000개의 세그먼트 쌍을 사용할 수 있습니다. 10,000개가 넘으면 세그먼트 쌍이 학습 세트로 푸시됩니다.
동일한 데이터 세트로 여러 개의 데이터 가져오기를 수행하는 경우 하나의 가져오기에 데이터 분할을 수동으로 지정하고 다른 데이터 세트에 자동 분할을 사용할 수 있습니다. 데이터는 가져오기 및 파일 삭제 후 수동 분할과 관련하여 항상 재조정됩니다.
데이터 요구사항
학습 데이터는 다음 요구사항을 준수해야 합니다.
AutoML Translation에서 자동으로 데이터를 분할하도록 하려면 세그먼트 쌍을 1,000개 이상 제출하여 커스텀 모델을 학습시켜야 합니다.
데이터를 수동으로 분할하는 경우 TRAIN 세트에 세그먼트 쌍을 최소 3개 제공해야 하며 VALIDATION과 TEST에 각각 최소 100개의 세그먼트 쌍이 있어야 합니다.
TRAIN 세트에 최소 3개의 세그먼트 쌍을 제공해야 하며 VALIDATION과 TEST 세트에 각각 100개 이상의 세그먼트 쌍이 있어야 합니다.
VALIDATION 세트와 TEST 세트에 제공하는 세그먼트 쌍은 각각 10,000개를 초과할 수 없습니다.
데이터 세트는 최대 1,500만 개의 세그먼트 쌍을 초과할 수 없습니다.
데이터 권장사항
다음 권장사항은 모델의 품질을 높이는 데 도움이 될 수 있습니다.
TRAIN에는 세그먼트 쌍 5,000개 이상, VALIDATION에는 세그먼트 쌍 500개 이상, TEST에는 세그먼트 쌍 500개 이상을 사용하세요. 말하자면, 가능하면 더 많은 데이터를 사용하세요. TRAIN 세트에 대한 데이터가 많으면 모델이 패턴을 학습하는 데 도움이 되고 VALIDATION와 TEST 세트에 대한 데이터가 많으면 모델이 도메인의 다양한 시나리오로 일반화하는 데 도움이 됩니다.
약 200단어 이하로 세그먼트를 유지합니다. 세그먼트가 그보다 더 길면 AutoML Translation에서 세그먼트 쌍을 삭제할 수 있습니다. 자세한 내용은 가져오기 문제를 참조하세요.
개요의 데이터 준비 섹션에 있는 '복잡한 데이터 정리' 부분에 설명된 대로 일반적인 소스 데이터 문제를 해결합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Prepare training data\n=====================\n\nCloud Translation trains custom models by using matching pairs of segments in the\nsource and target languages. It treats each segment pair as an independent\ntraining item, without assuming any correlation between separate pairs.\n\nThe segment pairs that are used to train your custom model must be in the\ntab-separated values (`.tsv`) or Translation Memory eXchange (`.tmx`) format.\nFor more information, see [Prepare example translations](/translate/docs/advanced/custom-translations#file-prep).\n\nSegment pairs are always de-duplicated across all imported pairs. A segment pair\nis a duplicate of another when their source segment matches another source\nsegment. Cloud Translation doesn't allow you to import files with the same\ncontent.\n\nData split\n----------\n\nAutoML Translation uses the segment pairs that you provide to for\ndifferent purposes while creating your custom model:\n\n- **Train** - Segment pairs to train the model. Allocate most of your data for this purpose.\n- **Validation** - Segment pairs to validate the results that the model returns during training.\n- **Test** - Segment pairs to generate the final evaluation metrics of your model. Indicates how the model might perform in production.\n\nYou can control which segment pairs AutoML Translation uses for each\npurpose by uploading separate files for the training, validation, and testing\nsets. If you don't explicitly specify which files to use for these three\npurposes, AutoML Translation automatically divides your segment pairs\ninto three sets. AutoML Translation uses approximately 80% of your data\nfor training, 10% for validation, and 10% for testing. AutoML Translation\nrandomly assigns your segment pairs into the three sets. You can have a maximum\nof 10,000 segment pairs each for the validation and testing sets. After 10,000\npairs, segment pairs are pushed to the training set.\n\nIf you do multiple data imports into the same dataset, you can manually specify\nthe data split for one import and use the automatic split for another. Data is\nalways re-balanced with respect to your manual division after each import and\nfile deletion.\n| **Note:** If you exceed 100,000 segment pairs, you might have an unbalanced data split because you can only include a maximum of 10,000 segment pairs for the validation and test sets. AutoML Translation warns you but still allows training to proceed.\n\nData requirements\n-----------------\n\nYour training data must conform to the following requirements:\n\n- If you let AutoML Translation automatically split your data, you must submit at least 1,000 segment pairs to train a custom model.\n- If you manually split your data, you must provide at least three segment pairs for the `TRAIN` set, and you must have at least 100 segment pairs each for the `VALIDATION` and `TEST` sets.\n- You must provide at least three segment pairs for the `TRAIN` set, and you must have at least 100 segment pairs each for the `VALIDATION` and `TEST` sets.\n- You cannot provide more than 10,000 segment pairs each for the `VALIDATION` and `TEST` sets.\n- Your dataset cannot exceed the maximum of 15 million segment pairs.\n\n| **Important:** Do not use this product with any personal identifiable information (PII) or any data or images that have been obtained from a website or online service (including mobile apps) directed to children or from children under the age of 13, as covered by the Children's Online Privacy Protection Act, regardless of any parental consent. Data should be sanitized before sending it to the API. For support with removing PII or sensitive data visit \u003chttps://cloud.google.com/dlp\u003e\n\nData recommendations\n--------------------\n\nThe following recommendations can help you increase the quality of your model:\n\n- Use at least 5,000 segment pairs for `TRAIN`, 500 segment pairs for `VALIDATION`, and 500 segment pairs for `TEST`. That said, use more data if possible. Having more data for the `TRAIN` set helps the model learn patterns, and having more data for the `VALIDATION` and `TEST` sets help verify that the model can be generalized to a wider variety of scenarios in your domain.\n- Keep segments to roughly 200 words or less. AutoML Translation might drop segment pairs larger than that. For more information, see [Import\n issues](/translate/docs/advanced/automl-datasets#issues).\n- Fix common source data issues, as described in the \"Clean up messy data\" part in the [data\n preparation](/translate/docs/advanced/automl-beginner#data-preparation) section of the overview.\n\nWhat's next\n-----------\n\n- [Create a dataset and import your data](/translate/docs/advanced/custom-translations#file-prep)."]]