カスタム翻訳モデルを作成する
このページでは、Google Cloud コンソールを使用してカスタム AutoML 翻訳モデルをトレーニングし、使用する方法を説明します。次の例では、ソフトウェア ローカライゼーションの技術に関する文のペアを使用して、英語からスペイン語へのカスタム翻訳モデルをトレーニングしています。
始める前に
[AutoML Translation] ページに移動し、プルダウン リストからプロジェクトを選択します。少なくとも、プロジェクトに対するロール / 編集者のアクセス権限が必要です。AutoML のドキュメントに、プロジェクトの設定方法と必要な権限の付与について説明されています。
翻訳データセットの作成と文のペアのインポート
モデル トレーニング用のサンプルデータを含むアーカイブ ファイルをダウンロードし、
en-es.tsv
ファイルを抽出します。コンソールの AutoML Translation ページに移動します。
AutoML Translation を有効にしたプロジェクトを選択します。
[データセットを作成] ボタンをクリックします。
[データセットを作成] ページで、データセットの名前を入力し、ソース言語とターゲット言語を選択します。
[ソース言語] で [英語] を選択すると、[ターゲット言語] に使用可能な言語が表示されます。スペイン語を選択します。
[作成] をクリックします。
データセットの [インポート] タブで、次を行います。
- [パソコンからファイルをアップロードする] を選択し、[ファイルを選択] をクリックして、以前にダウンロードした
en-es.tsv
ファイルを選択します。 - ローカルからファイルを選択する場合は、アップロードしたファイルを保存する Cloud Storage パスを指定する必要があります。Cloud Storage バケットのリージョンは
us-central1.
にする必要があります。
- [パソコンからファイルをアップロードする] を選択し、[ファイルを選択] をクリックして、以前にダウンロードした
[続行] をクリックします。
[データセット] ページに戻ります。ドキュメントのインポート中は、データセットに進行中アニメーションが表示されます。データセットが正常にアップロードされると、プログラムの登録に使用したメールアドレスにメッセージが届きます。
データセットを確認します。
データが正常にインポートされたら、作成したデータセットをデータセットの一覧ページから選択して(またはメール通知のリンクをクリックして)、データセットの詳細を確認します。選択したデータセットの名前がタイトルバーに表示され、文のペアと各ペアが使用される処理の段階([TRAIN]、[VALIDATION]、[TEST])がページに一覧表示されます。
AutoML 翻訳モデルのトレーニング
カスタムモデルのトレーニングを開始するには、タイトルバーのすぐ下にある [トレーニング] タブをクリックし、次に [トレーニングを開始] ボタンをクリックします。
モデルのトレーニングが完了するまで数時間かかることがあります。モデルのトレーニングが正常に終了したら、プログラムの登録に使用したメールアドレスにメッセージが届きます。
トレーニングが完了したという通知を受け取ったら、メール メッセージを開き、リンクをクリックして Google Cloud コンソールに移動します。[トレーニング] ページに、モデルの主な指標(特に BLEU スコア)が表示されます。BLEU(Bilingual Evaluation Understudy)スコアは候補テキストと参照テキストの類似度を示し、値が 1 に近いほどテキストの類似度が高いことを表します。
AutoML 翻訳モデルの使用
タイトルバーのすぐ下にある [予測] タブ、またはモデル情報の下にある [テストと使用] リンクをクリックします。翻訳するテキストを入力し、[翻訳] ボタンをクリックします。カスタムモデルと Google NMT モデルの結果を比較できます。
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の操作を行います。
不要な Google Cloud 料金が発生しないようにするには、Google Cloud コンソールを使用して、不要なプロジェクトを削除します。
次のステップ
- 独自のデータセットを作成して AutoML Translation モデルを作成する準備ができたら、データの準備方法に関する説明をご覧ください。