建立自訂翻譯模型

使用 Google Cloud 控制台訓練及使用自訂翻譯模型。以下範例使用 AutoML Translation,透過內含軟體本地化文本中與科技相關的區段組合的資料集,訓練英文到西班牙文的翻譯模型。

事前準備

如要開始使用 AutoML Translation,專案必須啟用 Cloud Translation API,且您必須具備下列角色授予的權限:

  • 檢視者角色,可查看專案中的現有資源
  • Cloud Translation API 編輯者角色,可建立及管理資料集和模型
  • Storage Admin 角色,可將訓練資料上傳至 Cloud Storage 值區

建立翻譯資料集並匯入區隔配對

  1. 下載含有模型訓練作業所用樣本資料的封存檔,並擷取檔案。

    在本教學課程中,您將使用英翻西 TSV 檔案。

  2. 前往 AutoML Translation 主控台。

    前往「翻譯」頁面

  3. 在導覽窗格中,按一下「資料集」前往「資料集」頁面。

  4. 點選「建立資料集」

  5. 在「建立資料集」對話方塊中,指定資料集的詳細資料:

    1. 輸入 tutorial_dataset 做為資料集名稱。
    2. 從下拉式清單中選取「英文 (EN)」做為來源語言。
    3. 選取「西班牙文 (ES)」做為目標語言。
    4. 點選「建立」
  6. 建立資料集後,按一下資料集名稱即可查看詳細資料。

  7. 前往「匯入」分頁,然後將 en-es.tsv 資料集上傳至 Cloud Storage:

    1. 選取「從電腦上傳檔案」
    2. 按一下「選取檔案」,然後選擇您先前下載及解壓縮的 en-es.tsv 檔案。
    3. 按一下「瀏覽」,選取或建立新的 Cloud Storage bucket,用來儲存 TSV 檔案。值區區域必須為 us-central1
  8. 按一下「繼續」

    AutoML Translation 會自動將資料分割為訓練集、驗證集和測試集。您可以在資料集的「句子」分頁中,查看這些分割和匯入的句子配對。

訓練模型

  1. 前往 AutoML Translation 主控台。

    前往「翻譯」頁面

  2. 在導覽窗格中,前往「資料集」頁面。

  3. 點選「tutorial_dataset」tutorial_dataset資料集。

  4. 前往「訓練」分頁。

  5. 按一下「開始訓練」,開啟「訓練新模型」窗格。

  6. 輸入 tutorial_model 做為模型名稱。

  7. 點選「開始訓練」

訓練模型可能需要數小時才能完成。

評估模型

查看模型與預設 Google NMT 模型的比較結果,後者是以測試集中的區隔配對為準。

  1. 前往 AutoML Translation 主控台。

    前往「翻譯」頁面

  2. 在導覽窗格中前往「模型」頁面。

  3. 點選「tutorial_model」tutorial_model模型。

  4. 按一下「評估」分頁標籤。

在「先前的評估」部分,Cloud Translation 會顯示您的模型與 Google NMT 模型的 BLEU 分數比較結果。BLEU (雙語評估研究) 分數會指出候選文字與參考文字的相似程度,分數越接近 100,表示文字越相似。

使用翻譯模型

在 Google Cloud 控制台中,您可以使用自訂模型翻譯部分文字。

  1. 前往 AutoML Translation 主控台。

    前往「翻譯」頁面

  2. 在導覽窗格中前往「模型」頁面。

  3. 點選「tutorial_model」tutorial_model模型。

  4. 按一下「預測」分頁標籤。

  5. 在「英文」文字方塊中輸入要翻譯的文字,然後按一下「翻譯」

    您可以將自訂模型的結果與 Google NMT 模型進行比較。

清除所用資源

為避免產生不必要的 Google Cloud 費用,請刪除模型資料集en-es.tsv 檔案。您也可以透過Google Cloud console 刪除不需要的專案。

後續步驟

  • 如要瞭解自訂模型,請參閱新手指南
  • 如要建立自己的資料集和自訂模型,請參閱「準備訓練資料」,瞭解如何準備資料。