トレーニングデータを準備する

Cloud Translation は、ソース言語とターゲット言語で一致するセグメントペアを使用してカスタムモデルをトレーニングします。セグメントの個々のペア間には相関関係がないものと想定して、各ペアを独立したトレーニングアイテムとして扱います。

カスタムモデルのトレーニングに使用するセグメントペアは、タブ区切り値（.tsv）または Translation Memory eXchange（.tmx）の形式にする必要があります。詳細については、翻訳例を準備するをご覧ください。

ペアをインポートするときに、重複するセグメントペアは除去されます。セグメントペアのソースセグメントが別のソースセグメントと一致する場合、このペアは別のセグメントと重複することになります。Cloud Translation では同じコンテンツを含むファイルをインポートすることはできません。

データ分割

AutoML Translation では、カスタムモデルの作成時に提供されたセグメントペアを異なる目的で使用します。

トレーニング - モデルをトレーニングするために使用するセグメントペア。ほとんどのデータはこの用途で使用されます。
検証 - トレーニング中にモデルが返す結果を検証するために使用するセグメントペア。
テスト - モデルの最終評価指標を生成するために使用されるセグメントペア。本番環境でのモデルのパフォーマンスを示します。

AutoML Translation が目的ごとに使用するセグメントペアを制御するには、トレーニングセット、検証セット、テストセットとして別々のファイルをアップロードします。この 3 つの目的に使用するファイルを明示的に指定しない場合は、セグメントペアが自動的に 3 つのセットに分割されます。AutoML Translation では、データの約 80% がトレーニングに、10% が検証に、10% がテストに使用されます。AutoML Translation は、セグメントペアを 3 つのセットにランダムに割り当てます。検証セットとテストセットに対して、それぞれ最大 10,000 のセグメントペアを設定できます。10,000 ペアを超えると、セグメントペアがトレーニングセットに push されます。

同じデータセットに複数のデータインポートを行う場合は、あるインポートのデータ分割を手動で指定し、別のインポートに自動分割を使用できます。インポートとファイルの削除が終わるたびに、データは常に手動分割に関連して再調整されます。

データ要件

トレーニングデータは次の要件に従う必要があります。

AutoML Translation がデータを自動的に分割するように設定する場合は、カスタムモデルをトレーニングするために少なくとも 1,000 個のセグメントペアを送信する必要があります。
データを手動で分割する場合は、TRAIN セットに少なくとも 3 つのセグメントペアを指定する必要があります。VALIDATION セットと TEST セットのそれぞれについては、少なくとも 100 個のセグメントペアが必要です。
TRAIN セットには少なくとも 3 つのセグメントペアを指定する必要があります。VALIDATION セットと TEST セットにはそれぞれ 100 個以上のセグメントペアが必要です。
VALIDATION と TEST のセットに対してそれぞれ 10,000 個を超えるセグメントペアを指定することはできません。
データセットは最大 1,500 万個のセグメントペアを超えることはできません。

データに関する推奨事項

モデルの品質向上に役立つ推奨事項は次のとおりです。

少なくとも TRAIN には 5,000 セグメントペア、VALIDATION には 500 セグメントペア、TEST には 500 セグメントペアを使用します。可能であれば、より多くのデータを使用してください。TRAIN セットのデータが多いほど、モデルがパターンを学習するうえで有用です。VALIDATION セットと TEST セットのデータが多いほど、ドメイン内の幅広いシナリオに対してモデルを一般化できることを検証するうえで有効です。
セグメントは 200 単語程度に抑えます。AutoML Translation では、それより大きいセグメントペアが削除される可能性があります。詳しくは、インポートに関する問題をご覧ください。
概要のデータの準備セクションの「データをクリーンアップする」で説明されているように、ソースデータの一般的な問題を修正します。

次のステップ

データセットの作成とデータのインポート。