创建自定义翻译模型
使用 Google Cloud 控制台训练和使用自定义翻译模型。以下示例使用 AutoML Translation,通过包含软件本地化的技术导向型句段对的数据集,训练英语-西班牙语翻译模型。
准备工作
您的项目必须启用 Cloud Translation API,并且您必须拥有以下角色授予的权限,然后才能开始使用 AutoML Translation:
- Viewer 角色,可以查看项目中的现有资源
- Cloud Translation API Editor 角色,可以创建和管理数据集和模型
- Storage Admin 角色,可以将训练数据上传到 Cloud Storage 存储桶
创建翻译数据集并导入句段对
下载包含用于训练模型的示例数据的归档文件,并提取文件。
在本教程中,您将使用英语到西班牙语的 TSV 文件。
转到 AutoML Translation 控制台。
在导航窗格中,点击数据集以转到数据集页面。
点击创建数据集。
在创建数据集对话框中,指定数据集的详细信息:
- 输入
tutorial_dataset
作为数据集的名称。 - 从下拉列表中选择英语 (EN) 作为源语言。
- 选择西班牙语 (ES) 作为目标语言。
- 点击创建。
- 输入
创建数据集后,点击数据集名称以查看其详细信息。
转到导入标签页,并将
en-es.tsv
数据集上传到 Cloud Storage:- 选择从您的计算机上传文件。
- 点击选择文件,然后选择您之前下载和解压缩的
en-es.tsv
文件。 - 点击浏览,以选择或创建用于存储 TSV 的新 Cloud Storage 存储桶。存储桶区域必须为
us-central1
。
点击继续。
AutoML Translation 会自动将数据拆分为训练集、验证集和测试集。您可以在数据集的句子标签页中查看这些拆分和导入的句对。
训练模型
转到 AutoML Translation 控制台。
在导航窗格中,转到数据集页面。
点击 tutorial_dataset 数据集。
转到训练标签页。
点击开始训练,以打开训练新模型窗格。
输入
tutorial_model
作为模型名称。点击开始训练。
模型训练可能需要几个小时才能完成。
评估模型
检查该模型与基于测试集中的句段对的默认 Google NMT 模型的对比情况。
转到 AutoML Translation 控制台。
从导航窗格中,转到模型页面。
点击 tutorial_model 模型。
点击评估标签页。
在之前的评估部分中,Cloud Translation 会显示您的模型的 BLEU 得分与 Google NMT 模型的对比情况。BLEU (Bilingual Evaluation Understudy) 得分表明了候选文本与参考文本的相似程度。值越接近 100,表示文本越相似。
使用翻译模型
在 Google Cloud 控制台中,您可以使用自定义模型来翻译一些文本。
转到 AutoML Translation 控制台。
从导航窗格中,转到模型页面。
点击 tutorial_model 模型。
点击预测标签页。
在英语文本框中,输入要翻译的文本,然后点击翻译。
您可以比较一下自定义模型与 Google NMT 模型的翻译结果。
清理
为避免产生不必要的 Google Cloud 费用,请删除您的模型、数据集和 en-es.tsv
文件。您还可以使用 Google Cloud 控制台删除不需要的项目。