커스텀 번역 개요

기본 Google 인공신경망 기계 번역(NMT) 모델은 다양한 언어를 지원하며 범용 텍스트에 적합합니다. 그러나 전문 분야 또는 스타일에 민감한 텍스트를 번역하는 경우 커스텀 번역을 사용하면 번역의 관련성을 높이는 데 도움이 됩니다.

커스텀 번역을 사용하려면 예시 번역을 직접 제공해야 합니다. 그러면 Cloud Translation이 예시의 스타일, 어조, 어휘를 따르는 결과를 생성할 수 있습니다.

Cloud Translation은 커스텀 번역 요청에 대해 두 가지 솔루션, 즉 커스텀 모델 학습을 위한 AutoML Translation과 Google의 대규모 언어 모델(LLM)을 활용하는 적응형 번역을 제공합니다. 각 기능에는 자체 데이터 요구사항, 지원되는 언어 집합, 가격 책정이 있습니다.

AutoML Translation

AutoML Translation을 사용할 때는 데이터를 가져와서 사용자가 소유하고 유지보수하는 커스텀 모델을 학습시킵니다. 커스텀 모델을 빌드한 후에는 기본 NMT 모델 대신 사용자의 모델을 사용하는 번역을 요청할 수 있습니다. 커스텀 번역은 적응형 번역과 비교하여 올바른 용어 선택이 가장 중요한 전문 분야 텍스트에 적합합니다. 또한 모델 학습을 위해 더 큰 데이터 세트를 제공해야 합니다.

모델 학습 시간 및 번역을 위해 전송한 입력 문자 수에 따라 비용이 청구됩니다.

적응형 번역

적응형 번역은 소규모 데이터 세트와 결합된 LLM을 사용하여 AutoML Translation 커스텀 모델과 동등한 수준의 고품질 번역을 제공합니다. 사용지는 모델을 학습시키거나 유지보수하지 않습니다. 적응형 번역은 커스텀 모델과 비교하여 스타일, 어조, 음성이 입력과 비슷한 응답을 받으려는 경우에 효과적입니다.

적응형 번역의 경우 입력 및 출력 문자 수에 따라 요금이 청구됩니다.

번역 예시 준비

출발어 한 문장과 도착어로 번역된 해당 문장으로 구성되는 세그먼트 쌍으로 번역 예시를 준비합니다. 이러한 세그먼트 쌍을 탭으로 구분된 값(TSV) 파일 또는 Translation Memory eXchange(TMX) 파일에 저장합니다.

번역할 콘텐츠의 언어 도메인을 나타내는 예시를 선택합니다. 자세한 안내는 AutoML Translation 초보자 가이드의 데이터 준비 섹션을 참조하세요.

TSV

탭으로 구분된 파일의 경우 각 행의 형식은 다음과 같습니다.

  • Source segment Translated segment

언어 코드가 포함된 헤더 행을 포함하여 출발어와 도착어를 식별하지 마세요. 데이터 세트를 만들 때 이러한 언어를 지정합니다. 다음 예시에는 영어-독일어 번역에 대한 세그먼트 쌍이 포함되어 있습니다.

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

TSV 파일의 모든 텍스트는 일반 텍스트여야 합니다. 텍스트에 HTML 태그 또는 다른 마크업이 포함되어 있는 경우 Cloud Translation에서는 마크업을 일반 텍스트로 처리합니다.

TMX

TMX는 소스 및 대상 번역 세그먼트를 제공하기 위한 표준 XML 형식입니다. Cloud Translation은 TMX 버전 1.4를 기반으로 하는 형식의 입력 파일을 지원합니다. 다음은 필수 구성을 보여주는 예시입니다.

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

올바른 형식의 TMX 파일에서 <header> 요소는 srclang 속성을 사용하여 출발어를 지정해야 하고, 모든 <tuv> 요소는 xml:lang 속성을 사용하여 포함된 텍스트의 언어를 지정해야 합니다.

모든 <tu> 요소에는 출발어와 도착어가 동일한 <tuv> 요소 쌍이 포함되어야 합니다. <tu> 요소에 <tuv> 요소가 3개 이상 포함되어 있으면 Cloud Translation은 출발어 및 도착어와 일치하는 첫 번째 <tuv> 요소만 처리하고 나머지는 무시합니다. <tu> 요소에 일치하는 <tuv> 요소 쌍이 없으면 Cloud Translation은 잘못된 <tu> 요소를 건너뜁니다.

Cloud Translation은 <seg> 요소를 처리하기 전에 주위의 마크업 태그를 제거합니다. <tuv> 요소에 <seg> 요소가 2개 이상 포함되어 있으면 Cloud Translation은 텍스트를 사이에 공백이 있는 단일 요소로 연결합니다.

위에 표시되지 않은 XML 태그가 파일에 포함되어 있으면 Cloud Translation이 해당 태그를 무시합니다.

파일이 올바른 XML 및 TMX 형식을 따르지 않는 경우(예: 종료 태그 또는 <tmx> 요소가 없는 경우) Cloud Translation은 해당 요소 처리를 취소합니다. Cloud Translation은 잘못된 <tu> 요소를 1,024개를 초과하여 건너뛴 경우에도 처리를 중단합니다.

각 기능에서 세그먼트 쌍의 필수적인 최소 개수와 허용되는 최대 개수는 서로 다릅니다. 자세한 내용은 AutoML Translation 데이터 준비 또는 적응형 번역 데이터 요구사항을 참조하세요.

다음 단계