カスタム翻訳の概要

デフォルトの Google ニューラル機械翻訳(NMT)モデルは幅広い言語に対応し、汎用的なテキストに適しています。ただし、分野固有のテキストや独自のスタイルに依存するテキストを翻訳する場合は、カスタム翻訳を使用すると、より関連性の高い翻訳結果を得ることができます。

カスタム翻訳では、独自の翻訳例を用意する必要があります。Cloud Translation は、サンプルのスタイル、トーン、語彙に厳密に従った結果を生成します。

Cloud Translation にはカスタム翻訳をリクエストするソリューションが 2 つあります。1 つは、カスタムモデルをトレーニングする AutoML Translation、もう 1 つは Google の大規模言語モデル(LLM)を活用する適応型翻訳です。機能ごとにデータ要件、サポートされている言語、料金が異なります。

AutoML Translation

AutoML Translation では、データをインポートしてカスタムモデルをトレーニングします。このモデルは、自身で所有し、維持します。カスタムモデルを作成したら、デフォルトの NMT モデルではなく、そのモデルを使用する翻訳をリクエストします。正しい用語の取得が最も優先される分野固有のテキストの場合は、適応型翻訳よりもカスタムモデルのほうが適しています。ただし、モデルのトレーニング用に指定するデータセットの規模は大きくなります。

モデルのトレーニング時間と、翻訳に送信する入力文字数に応じて課金されます。

適応型翻訳

適応型翻訳は、LLM と小規模なデータセットを組み合わせて、AutoML Translation カスタムモデルと同等の高品質な翻訳を出力します。モデルのトレーニングやメンテナンスは行いません。入力に対して類似したスタイルやトーンのレスポンスを得るには、カスタムモデルよりも適応型翻訳のほうが適しています。

適応型翻訳では、入力と出力の文字数に基づいて課金されます。

翻訳例を準備する

翻訳例として、ソース言語の 1 つの文とそれに対応するターゲット言語の訳文で構成されるセグメントペアを準備します。これらのセグメントペアをタブ区切り値(TSV)ファイルまたは Translation Memory eXchange(TMX)ファイルに保存します。

翻訳するコンテンツの言語領域を表す例を選択します。詳細なガイダンスについては、AutoML Translation 初心者向けガイドでデータの準備をご覧ください。

TSV

タブ区切りファイルの場合、各行の形式は次のとおりです。

  • Source segment タブ Translated segment

ソース言語とターゲット言語を表す言語コードを含むヘッダー行は入れないでください。これらの言語はデータセットの作成時に指定します。次の例は、英語からドイツ語への翻訳のセグメントペアを示しています。

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

TSV ファイル内のすべてのコンテンツは書式なしテキストであることが必要です。テキストに HTML タグなどのマークアップが含まれている場合、Cloud Translation はマークアップを書式なしテキストとして扱います。

TMX

TMX は、ソースとターゲットの翻訳セグメントを提供するための標準的な XML 形式です。Cloud Translation は TMX バージョン 1.4 に基づく形式の入力ファイルをサポートします。次の例は、必須の構造を示しています。

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

整形式の TMX ファイルの <header> 要素は、srclang 属性を使用してソース言語を指定しなければなりません。また、すべての <tuv> 要素は、xml:lang 属性を使用して、含まれるテキストの言語を指定する必要があります。

すべての <tu> 要素には、同じソース言語とターゲット言語での <tuv> 要素のペアが含まれます。1 つの <tu> 要素に 3 つ以上の <tuv> 要素が含まれる場合、Cloud Translation は、ソース言語に一致する最初の <tuv> とターゲット言語に一致する最初の同要素のみを処理し、残りは無視します。<tu> 要素の中に対応する <tuv> 要素のペアがない場合、Cloud Translation はその無効な <tu> 要素をスキップします。

Cloud Translation は、<seg> 要素の前後のマークアップ タグを削除してから、それを処理します。1 つの <tuv> 要素に複数の <seg> 要素が含まれている場合、Cloud Translation はスペースを間に挿入してそれらのテキストを 1 つの要素に連結します。

上記に示したもの以外の XML タグがファイルに含まれている場合、Cloud Translation はそれらを無視します。

ファイルが XML と TMX の正しい形式に従っていない場合(たとえば、終了タグや <tmx> 要素がない場合)、Cloud Translation はそのファイルの処理を中止します。Cloud Translation は、1,024 個を超える無効な <tu> 要素をスキップした場合も処理を中止します。

機能ごとに必要なセグメントペアの最小数と最大許容数は異なります。詳細については、AutoML Translation のデータの準備または適応型翻訳のデータの要件をご覧ください。

次のステップ