カスタム翻訳モデルを作成する
Google Cloud コンソールでカスタム翻訳モデルをトレーニングして使用します。次の例では、AutoML Translation で、ソフトウェアのローカライゼーションから取得した技術指向のセグメントペアを含むデータセットを使用して、英語からスペイン語への翻訳モデルをトレーニングしています。
始める前に
AutoML Translation を使用するには、プロジェクトで Cloud Translation API を有効にし、次のロールによって付与される権限が必要です。
- プロジェクトの既存のリソースを表示するための閲覧者ロール
- データセットとモデルの作成と管理を行うための Cloud Translation API 編集者ロール
- トレーニング データを Cloud Storage バケットにアップロードするためのストレージ管理者ロール
翻訳データセットの作成とセグメントペアのインポート
モデルのトレーニング用のサンプルデータのあるアーカイブ ファイルをダウンロードして、ファイルを抽出します。
このチュートリアルでは、英語からスペイン語の TSV ファイルを使用します。
AutoML Translation のコンソールに移動します。
ナビゲーション パネルで [データセット] をクリックして、[データセット] ページに移動します。
[データセットを作成] をクリックします。
[データセットを作成] ダイアログで、データセットの詳細を指定します。
- データセットの名前として「
tutorial_dataset
」と入力します。 - ソース言語としてプルダウン リストから [英語(EN)] を選択します。
- ターゲット言語として [スペイン語(ES)] を選択します。
- [作成] をクリックします。
- データセットの名前として「
データセットが作成されたら、データセット名をクリックして詳細を表示します。
[インポート] タブに移動し、
en-es.tsv
データセットを Cloud Storage にアップロードします。- [パソコンからファイルをアップロードする] を選択します。
- [ファイルを選択] をクリックし、先ほどダウンロードして抽出した
en-es.tsv
ファイルを選択します。 - [参照] をクリックして、TSV が保存されている Cloud Storage バケットを選択するか、新規に作成します。バケット リージョンは
us-central1
にする必要があります。
[続行] をクリックします。
AutoML Translation は、データをトレーニング セット、検証セット、テストセットに自動的に分割します。これらの分割とインポートされたセンテンスペアは、データセットの [文] タブで確認できます。
モデルをトレーニングする
AutoML Translation のコンソールに移動します。
ナビゲーション パネルで、[データセット] ページに移動します。
tutorial_dataset データセットをクリックします。
[トレーニング] タブに移動します。
[トレーニングを開始] をクリックして、[新しいモデルのトレーニング] ペインを開きます。
モデル名として「
tutorial_model
」と入力します。[トレーニングを開始] をクリックします。
モデルのトレーニングが完了するまで数時間かかることがあります。
モデルを評価する
このモデルと、テストセットのセグメントペアに基づくデフォルトの Google NMT モデルを比較します。
AutoML Translation のコンソールに移動します。
ナビゲーション パネルで、[モデル] ページに移動します。
tutorial_model モデルをクリックします。
[評価] タブをクリックします。
[以前の評価] セクションに、Google NMT モデルと比較したモデルの BLEU スコアが表示されます。BLEU(Bilingual Evaluation Understudy)スコアは候補テキストと参照テキストの類似度を示しています。値が 100 に近いほどテキストの類似度が高いことを表します。
翻訳モデルを使用する
Google Cloud コンソールで、カスタムモデルを使用してテキストを翻訳できます。
AutoML Translation のコンソールに移動します。
ナビゲーション パネルで、[モデル] ページに移動します。
tutorial_model モデルをクリックします。
[予測] タブをクリックします。
[英語] テキスト ボックスに翻訳するテキストを入力し、[翻訳] をクリックします。
カスタムモデルと Google NMT モデルの結果を比較できます。
クリーンアップ
不要な Google Cloud 料金が発生しないようにするには、モデル、データセット、en-es.tsv
ファイルを削除します。Google Cloud コンソールで、不要になったプロジェクトを削除することもできます。
次のステップ
- カスタムモデルの詳細について確認する。初心者向けガイドをご覧ください。
- 独自のデータセットとカスタムモデルを作成する。トレーニング データを準備するでデータの準備方法を確認してください。