トレーニング データを準備する
Cloud Translation は、ソース言語とターゲット言語で一致するセグメントペアを使用してカスタムモデルをトレーニングします。セグメントの個々のペア間には相関関係がないものと想定して、各ペアを独立したトレーニング アイテムとして扱います。
カスタムモデルのトレーニングに使用するセグメントペアは、タブ区切り値(.tsv
)または Translation Memory eXchange(.tmx
)の形式にする必要があります。詳細については、翻訳例を準備するをご覧ください。
ペアをインポートするときに、重複するセグメントペアは除去されます。セグメントペアのソース セグメントが別のソース セグメントと一致する場合、このペアは別のセグメントと重複することになります。Cloud Translation では同じコンテンツを含むファイルをインポートすることはできません。
データ分割
AutoML Translation では、カスタムモデルの作成時に提供されたセグメントペアを異なる目的で使用します。
- トレーニング - セグメントペアによってモデルをトレーニングします。ほとんどのデータはこの用途で使用されます。
- 検証 - セグメントペアによって、トレーニング中にモデルが返す結果を検証します。
- テスト - セグメント ペアによって、モデルの最終評価指標を生成します。本番環境でのモデルのパフォーマンスを示します。
AutoML Translation が目的ごとに使用するセグメントペアを制御するには、トレーニング セット、検証セット、テストセットに別々のファイルをアップロードします。この 3 つの目的に使用するファイルを明示的に指定しない場合は、セグメントペアが自動的に 3 つのセットに分割されます。AutoML Translation では、データの約 80% がトレーニングに、10% が検証に、10% がテストに使用されます。AutoML Translation は、セグメントペアを 3 つのセットにランダムに割り当てます。検証セットとテストセットに対して、それぞれ最大 10,000 個のセグメントペアを設定できます。10,000 個のペアを超えると、セグメントペアがトレーニング セットに push されます。
同じデータセットに複数のデータ インポートを行う場合は、あるインポートのデータ分割を手動で指定し、別のインポートに自動分割を使用できます。インポートとファイルの削除が終わるたびに、データは常に手動分割に関連して再調整されます。
データ要件
トレーニング データは次の要件に従う必要があります。
- AutoML Translation がデータを自動的に分割するように設定する場合は、カスタムモデルをトレーニングするために少なくとも 1,000 個のセグメントペアを送信する必要があります。
- データを手動で分割する場合は、
TRAIN
セットに少なくとも 3 つのセグメントペアを指定する必要があります。VALIDATION
セットとTEST
セットのそれぞれについては、少なくとも 100 個のセグメントペアが必要です。 TRAIN
セットには少なくとも 3 つのセグメントペアを指定する必要があります。VALIDATION
セットとTEST
セットにはそれぞれ 100 個以上のセグメントペアが必要です。VALIDATION
とTEST
のセットに対してそれぞれ 10,000 個を超えるセグメントペアを指定することはできません。- データセットは最大 1,500 万個のセグメントペアを超えることはできません。
データに関する推奨事項
モデルの品質向上に役立つ推奨事項は次のとおりです。
- 少なくとも
TRAIN
には 5,000 セグメントペア、VALIDATION
には 500 セグメントペア、TEST
には 500 セグメントペアを使用します。とは言え、可能であれば、より多くのデータを使用してください。TRAIN
セットのデータが多いほど、モデルがパターンを学習するうえで有用です。VALIDATION
セットとTEST
セットのデータが多いほど、ドメイン内の幅広いシナリオに対してモデルを一般化できることを検証するうえで有効です。 - セグメントは 200 単語程度に抑えます。AutoML Translation では、それより大きいセグメントペアが削除される可能性があります。詳しくは、インポートに関する問題をご覧ください。
- 概要のデータの準備セクションの「データをクリーンアップする」で説明されているように、ソースデータの一般的な問題を修正します。