カスタム翻訳モデルを作成する

Google Cloud コンソールでカスタム翻訳モデルをトレーニングして使用します。次の例では、AutoML Translation で、ソフトウェアのローカライゼーションから取得した技術指向のセグメントペアを含むデータセットを使用して、英語からスペイン語への翻訳モデルをトレーニングしています。

始める前に

AutoML Translation を使用するには、プロジェクトで Cloud Translation API を有効にし、次のロールによって付与される権限が必要です。

  • プロジェクトの既存のリソースを表示するための閲覧者ロール
  • データセットとモデルの作成と管理を行うための Cloud Translation API 編集者ロール
  • トレーニング データを Cloud Storage バケットにアップロードするためのストレージ管理者ロール

翻訳データセットの作成とセグメントペアのインポート

  1. モデルのトレーニング用のサンプルデータのあるアーカイブ ファイルをダウンロードして、ファイルを抽出します。

    このチュートリアルでは、英語からスペイン語の TSV ファイルを使用します。

  2. AutoML Translation のコンソールに移動します。

    [翻訳] ページに移動

  3. ナビゲーション パネルで [データセット] をクリックして、[データセット] ページに移動します。

  4. [データセットを作成] をクリックします。

  5. [データセットを作成] ダイアログで、データセットの詳細を指定します。

    1. データセットの名前として「tutorial_dataset」と入力します。
    2. ソース言語としてプルダウン リストから [英語(EN)] を選択します。
    3. ターゲット言語として [スペイン語(ES)] を選択します。
    4. [作成] をクリックします。
  6. データセットが作成されたら、データセット名をクリックして詳細を表示します。

  7. [インポート] タブに移動し、en-es.tsv データセットを Cloud Storage にアップロードします。

    1. [パソコンからファイルをアップロードする] を選択します。
    2. [ファイルを選択] をクリックし、先ほどダウンロードして抽出した en-es.tsv ファイルを選択します。
    3. [参照] をクリックして、TSV が保存されている Cloud Storage バケットを選択するか、新規に作成します。バケット リージョンは us-central1 にする必要があります。
  8. [続行] をクリックします。

    AutoML Translation は、データをトレーニング セット、検証セット、テストセットに自動的に分割します。これらの分割とインポートされたセンテンスペアは、データセットの [] タブで確認できます。

モデルをトレーニングする

  1. AutoML Translation のコンソールに移動します。

    [翻訳] ページに移動

  2. ナビゲーション パネルで、[データセット] ページに移動します。

  3. tutorial_dataset データセットをクリックします。

  4. [トレーニング] タブに移動します。

  5. [トレーニングを開始] をクリックして、[新しいモデルのトレーニング] ペインを開きます。

  6. モデル名として「tutorial_model」と入力します。

  7. [トレーニングを開始] をクリックします。

モデルのトレーニングが完了するまで数時間かかることがあります。

モデルを評価する

このモデルと、テストセットのセグメントペアに基づくデフォルトの Google NMT モデルを比較します。

  1. AutoML Translation のコンソールに移動します。

    [翻訳] ページに移動

  2. ナビゲーション パネルで、[モデル] ページに移動します。

  3. tutorial_model モデルをクリックします。

  4. [評価] タブをクリックします。

[以前の評価] セクションに、Google NMT モデルと比較したモデルの BLEU スコアが表示されます。BLEU(Bilingual Evaluation Understudy)スコアは候補テキストと参照テキストの類似度を示しています。値が 100 に近いほどテキストの類似度が高いことを表します。

翻訳モデルを使用する

Google Cloud コンソールで、カスタムモデルを使用してテキストを翻訳できます。

  1. AutoML Translation のコンソールに移動します。

    [翻訳] ページに移動

  2. ナビゲーション パネルで、[モデル] ページに移動します。

  3. tutorial_model モデルをクリックします。

  4. [予測] タブをクリックします。

  5. [英語] テキスト ボックスに翻訳するテキストを入力し、[翻訳] をクリックします。

    カスタムモデルと Google NMT モデルの結果を比較できます。

クリーンアップ

不要な Google Cloud 料金が発生しないようにするには、モデルデータセットen-es.tsv ファイルを削除します。Google Cloud コンソールで、不要になったプロジェクトを削除することもできます。

次のステップ