创建自定义翻译模型

本页面介绍如何使用 Google Cloud 控制台训练和使用自定义 AutoML 翻译模型。以下示例使用软件本地化的技术导向型句对训练英语--西班牙语自定义翻译模型。

准备工作

转到 AutoML Translation 页面,然后从下拉列表中选择您的项目。您必须至少拥有对项目的 roles/editor 访问权限。AutoML 文档将引导您设置项目并授予必要的权限。

创建翻译数据集并导入句对

  1. 下载包含用于训练模型的示例数据的归档文件,并提取文件 en-es.tsv

  2. 转到 AutoML Translation 控制台页面。

  3. 选择您为其启用了 AutoML Translation 的项目。

    显示了一个数据集的“数据集”页面

  4. 点击创建数据集按钮。

  5. 创建数据集页面上,输入数据集的名称并选择源语言和目标语言。

    选择英语作为源语言后,系统便会提供可用的目标语言。选择西班牙语

  6. 点击创建

  7. 在数据集的导入标签页上,执行以下操作:

    my_dataset 的“导入”标签页

    • 选择从您的计算机上传文件,点击选择文件,然后选择您之前下载的 en-es.tsv 文件。
    • 从本地选择文件时,您必须指定要用于存储上传的文件的 Cloud Storage 路径。Cloud Storage 存储分区的地区必须为 us-central1.
  8. 点击继续

    此时将返回到数据集页面;您的数据集会在文档导入期间显示一个进行中动画。数据集成功上传后,我们会向您注册程序时使用的电子邮件地址发送一封邮件。

  9. 查看数据集。

    成功导入数据后,从数据集列表页面中选择相应数据集(或点击电子邮件通知中的链接)以查看其相关详细信息。所选数据集的名称会显示在标题栏中,而页面会列出其中的句对及各自所属的处理阶段(训练、验证、测试)。

训练 AutoML 翻译模型

要开始训练自定义模型,请点击标题栏下方的训练标签,然后点击开始训练按钮。

my_dataset 数据集的“训练”标签页

训练模型可能需要几个小时才能完成。成功训练模型后,我们会向您注册程序时使用的电子邮件地址发送一封邮件。

当您收到训练完成的通知时,请打开电子邮件,然后点击链接以转到 Google Cloud 控制台。训练页面会显示该模型的一些高级指标(最显著的是其 BLEU 得分)。BLEU (Bilingual Evaluation Understudy) 得分表明了候选文本与参考文本的相似程度,值越接近一,说明两个文本越相似。

显示模型评估的 my_dataset 的“训练”标签页

使用 AutoML 翻译模型

点击标题栏正下方的预测标签或模型信息下方的测试和使用链接。输入一些要翻译的文本,然后点击翻译按钮。您可以比较一下自定义模型与 Google NMT 模型的翻译结果。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

为避免产生不必要的 Google Cloud 费用,请使用 Google Cloud 控制台删除您不需要的项目。

后续步骤