如果需要一致翻譯特定領域的字詞和具名實體,請建立詞彙表。詞彙表是自訂字典,內含兩種以上語言的對應詞彙。在機器翻譯期間,Translation Hub 會自動將相符的來源語言字詞,替換為相關聯的目標語言字詞。
使用詞彙表微調特定字詞或實體的翻譯方式。舉例來說,您可以加入詞彙表項目,避免系統翻譯產品名稱 (例如「Google Home」)。
建立字彙表後,請將其新增至入口網站,供入口網站使用者使用。
詞彙表與其他翻譯資源的比較
除了詞彙表,您也可以提供其他資源,協助入口網站使用者翻譯內容。下列章節說明各資源之間的差異。
- 翻譯記憶庫會比對區隔,而字彙表會比對字詞。使用翻譯記憶庫重複使用經過人工審核的翻譯,這些翻譯可能是匯入的內容,也可能是在譯後編輯期間擷取的內容。翻譯記憶庫可包含多種語言的任意數量區隔配對。
- 自訂模型會使用您提供的語句組合進行訓練,如果沒有完整的詞彙表或翻譯記憶體,自訂模型就能協助您提升機器翻譯品質。如要針對特定領域和寫作風格調整機器翻譯,請使用 AutoML Translation 建立自訂模型,產生更合適的預測結果。
入口網站使用者可以搭配使用這些資源,提升翻譯品質。如要進一步瞭解翻譯中心如何在翻譯時套用資源,請參閱「翻譯文件」。
非檢索用字
Translation Hub 會忽略詞彙表中的部分字詞,這些字詞稱為停用字。Translation Hub 仍會翻譯停用字,但會忽略任何相符的詞彙表項目。如需所有停用字的清單,請參閱詞彙表停用字。
事前準備
如要填入字彙表,您需要一份檔案,其中包含相應語言的字詞。來源檔案的格式取決於您建立的字彙表類型:單向或同義詞集。
詞彙表項目會區分大小寫,如為不區分大小寫的項目,請在字彙表中同時加入兩種形式。
單向
單向詞彙表會指定原文和譯文語言配對的字詞所需譯法。這些字彙表是單向運作,舉例來說,英文到西班牙文的單向詞彙表不適用於西班牙文到英文的翻譯。
您可以提供 TSV (定位點分隔值)、CSV (半形逗號分隔值) 或 TMX (翻譯記憶體交換格式) 檔案。如為 TSV 和 CSV 檔案,請勿加入標題列來識別原文和譯文語言。建立詞彙表時,請指定這些語言。如果是 TMX 檔案,請使用 TMX 1.4 版標準。
如需詞彙表的詳細資料和範例,請參閱 Cloud Translation 說明文件中的「建立及使用詞彙表」。
對等字詞集
對等字詞集包含多種語言的對等字詞,且必須在 CSV 檔案中定義。每個資料列都包含不同語言的對應字詞。這些詞彙表是雙向的。標題列必須使用相應的語言代碼,標示各欄的語言。
如需詞彙表的詳細資料和範例,請參閱 Cloud Translation 說明文件中的「建立及使用詞彙表」。
詞彙表限制
Translation Hub 會限制來源檔案的大小,以及每個字彙表項目的大小。詳情請參閱配額與限制。
建立詞彙表
您可以使用 Google Cloud 控制台建立詞彙表。如果您先前透過 Cloud Translation API 建立資源,Translation Hub 會提供這些資源。您可以將這些資源指派給入口網站。
在 Google Cloud 控制台的「Translation Hub」部分,前往「Resources」頁面。
按一下「新增資源」。
在「新增資源」窗格中,選取「字彙表」分頁標籤。
指定術語表的名稱。
選取詞彙表類型。
將本機字彙表檔案上傳至 Cloud Storage,或從 Cloud Storage 選取現有字彙表檔案。
指定術語表語言。
按一下「新增」即可建立字彙表。
將詞彙表新增至入口網站
建立字彙表後,請將字彙表新增至入口網站,讓入口網站使用者在要求翻譯時使用。
在 Google Cloud 控制台的「Translation Hub」部分,前往「Resources」頁面。
從資源清單中選取一或多個術語表,然後新增至一或多個入口網站。
按一下「指派給入口網站」,開啟「將資源指派給入口網站」窗格。
在入口網站欄位中,選取要新增詞彙表的一或多個入口網站。
按一下「指派」。
在「資源」頁面中,查看每個資源的「入口網站名稱」資料欄,即可確認是否已新增。
後續步驟
- 瞭解入口網站使用者如何要求翻譯。