機械翻訳モデルを作成する
このページでは、AutoML Translation UI を使用してカスタムの機械翻訳モデルをトレーニングし、使用する方法を説明します。ここでは、ソフトウェアのローカライゼーションから技術に関する文のペアを使用して、英語からスペイン語へのカスタム翻訳モデルをトレーニングします。
始める前に
AutoML Translation UI を開き、タイトルバーの右上のプルダウン リストから、プロジェクトを選択します(少なくとも、プロジェクトに対する役割 / 編集者のアクセス権限が必要です。)アプリケーションに表示される手順に沿って設定します。必要な手順については、はじめににも記載されています。
データセットを作成する
モデル トレーニング用のサンプルデータを含むアーカイブ ファイルをダウンロードし、
en-es.tsv
ファイルを抽出します。AutoML Translation UI にアクセスします。
AutoML Translation を有効にしたプロジェクトを選択します。
[データセットを作成] ボタンをクリックします。
[データセットを作成] ページで、データセットの名前を入力し、ソース言語とターゲット言語を選択します。
[ソース言語] で [英語] を選択すると、[ターゲット言語] に使用可能な言語が表示されます。スペイン語を選択します。
[作成] をクリックします。
データセットの [インポート] タブで、次を行います。
- [パソコンからファイルをアップロードする] を選択し、[ファイルを選択] をクリックして、以前にダウンロードした
en-es.tsv
ファイルを選択します。 - ローカルからファイルを選択する場合は、アップロードしたファイルを保存する Cloud Storage パスを指定する必要があります。Cloud Storage バケットのリージョンは
us-central1.
にする必要があります。
- [パソコンからファイルをアップロードする] を選択し、[ファイルを選択] をクリックして、以前にダウンロードした
[続行] をクリックします。
[データセット] ページに戻ります。ドキュメントのインポート中は、データセットに進行中アニメーションが表示されます。データセットが正常にアップロードされると、プログラムの登録に使用したメールアドレスにメッセージが届きます。
データセットを確認します。
データが正常にインポートされたら、作成したデータセットをデータセットの一覧ページから選択して(またはメール通知のリンクをクリックして)、データセットの詳細を確認します。選択したデータセットの名前がタイトルバーに表示され、文のペアと各ペアが使用される処理の段階([TRAIN]、[VALIDATION]、[TEST])がページに一覧表示されます。
モデルのトレーニング
カスタムモデルのトレーニングを開始するには、タイトルバーのすぐ下にある [Train] タブをクリックし、次に [Start Training] ボタンをクリックします。
モデルのトレーニングが完了するまで数時間かかることがあります。モデルのトレーニングが正常に終了したら、プログラムの登録に使用したメールアドレスにメッセージが届きます。
トレーニングが完了したという通知を受け取ったら、メール メッセージを開き、リンクをクリックして AutoML Translation UI に戻ります。[トレーニング] ページに、モデルの主な指標(特に BLEU スコア)が表示されます。BLEU(Bilingual Evaluation Understudy)スコアは候補テキストと参照テキストの類似度を示し、値が 1 に近いほどテキストの類似度が高いことを表します。
カスタムモデルの使用
タイトルバーのすぐ下にある [Predict] タブまたはモデル情報の下にある [Test and use] リンクをクリックします。翻訳するテキストを入力し、[翻訳] ボタンをクリックします。カスタムモデルと Google NMT モデルの結果を比較できます。
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。
不要な Google Cloud 料金が発生しないようにするには、Cloud Console を使用して、不要なプロジェクトを削除します。
次のステップ
- 独自のデータセットを作成して AutoML Translation モデルを作成する準備ができたら、データの準備方法に関する説明をご覧ください。