建立自訂翻譯模型
使用 Google Cloud 控制台訓練及使用自訂翻譯模型。以下範例使用 AutoML Translation,透過內含軟體本地化文本中與科技相關的區段組合的資料集,訓練英文到西班牙文的翻譯模型。
事前準備
如要開始使用 AutoML Translation,專案必須啟用 Cloud Translation API,且您必須具備下列角色授予的權限:
- 檢視者角色,可查看專案中的現有資源
- Cloud Translation API 編輯者角色,可建立及管理資料集和模型
- Storage Admin 角色,可將訓練資料上傳至 Cloud Storage 值區
建立翻譯資料集並匯入區隔配對
下載含有模型訓練作業所用樣本資料的封存檔,並擷取檔案。
在本教學課程中,您將使用英翻西 TSV 檔案。
前往 AutoML Translation 主控台。
在導覽窗格中,按一下「資料集」前往「資料集」頁面。
點選「建立資料集」。
在「建立資料集」對話方塊中,指定資料集的詳細資料:
- 輸入
tutorial_dataset
做為資料集名稱。 - 從下拉式清單中選取「英文 (EN)」做為來源語言。
- 選取「西班牙文 (ES)」做為目標語言。
- 點選「建立」。
- 輸入
建立資料集後,按一下資料集名稱即可查看詳細資料。
前往「匯入」分頁,然後將
en-es.tsv
資料集上傳至 Cloud Storage:- 選取「從電腦上傳檔案」。
- 按一下「選取檔案」,然後選擇您先前下載及解壓縮的
en-es.tsv
檔案。 - 按一下「瀏覽」,選取或建立新的 Cloud Storage bucket,用來儲存 TSV 檔案。值區區域必須為
us-central1
。
按一下「繼續」。
AutoML Translation 會自動將資料分割為訓練集、驗證集和測試集。您可以在資料集的「句子」分頁中,查看這些分割和匯入的句子配對。
訓練模型
前往 AutoML Translation 主控台。
在導覽窗格中,前往「資料集」頁面。
點選「tutorial_dataset」tutorial_dataset資料集。
前往「訓練」分頁。
按一下「開始訓練」,開啟「訓練新模型」窗格。
輸入
tutorial_model
做為模型名稱。點選「開始訓練」。
訓練模型可能需要數小時才能完成。
評估模型
查看模型與預設 Google NMT 模型的比較結果,後者是以測試集中的區隔配對為準。
前往 AutoML Translation 主控台。
在導覽窗格中前往「模型」頁面。
點選「tutorial_model」tutorial_model模型。
按一下「評估」分頁標籤。
在「先前的評估」部分,Cloud Translation 會顯示您的模型與 Google NMT 模型的 BLEU 分數比較結果。BLEU (雙語評估研究) 分數會指出候選文字與參考文字的相似程度,分數越接近 100,表示文字越相似。
使用翻譯模型
在 Google Cloud 控制台中,您可以使用自訂模型翻譯部分文字。
前往 AutoML Translation 主控台。
在導覽窗格中前往「模型」頁面。
點選「tutorial_model」tutorial_model模型。
按一下「預測」分頁標籤。
在「英文」文字方塊中輸入要翻譯的文字,然後按一下「翻譯」。
您可以將自訂模型的結果與 Google NMT 模型進行比較。
清除所用資源
為避免產生不必要的 Google Cloud 費用,請刪除模型、資料集和 en-es.tsv
檔案。您也可以透過Google Cloud console 刪除不需要的專案。