自定义翻译概览

默认的 Google 神经机器翻译 (NMT) 模型涵盖多种语言,能够很好地处理一般文本。但是,如果您要翻译特定领域或注重风格的文本,则自定义翻译可以帮助您得到更贴合要求的翻译。

自定义翻译要求您提供自己的示例翻译。Cloud Translation 随后可以生成密切遵循示例的风格、语气和词汇的结果。

Cloud Translation 提供了两种可供请求自定义翻译的解决方案:可训练自定义模型的 AutoML Translation,以及可利用 Google 的大语言模型 (LLM) 的自适应翻译。每种功能都有自己的数据要求、受支持的语言组和价格。

AutoML Translation

借助 AutoML Translation,您可以导入自己的数据来训练归您所有并由您维护的自定义模型。构建自定义模型后,您随后可以请求使用您的模型(而不是默认 NMT 模型)的翻译。与自适应翻译相比,自定义模型非常适合特定领域的文本,在这类情况下,获得正确的术语是最优先的要求。您还需要提供较大的数据集来进行模型训练。

您需要根据模型训练时间和您发送进行翻译的输入字符数付费。

自适应翻译

自适应翻译将 LLM 与小型数据集结合使用来提供高质量翻译,通常堪比 AutoML Translation 自定义模型。您无需训练或维护任何模型。与自定义模型相比,自适应翻译能够提供在风格、语气和语态方面与您的输入相似的响应。

对于自适应翻译,您需要根据输入和输出字符数付费。

准备示例翻译

以语句对(其中包含一个源语言句子和一个采用目标语言翻译的对应句子)的形式准备示例翻译。将这些语句对保存在制表符分隔值 (TSV) 文件或 Translation Memory eXchange (TMX) 文件中。

选择表示您计划翻译的内容的语言领域的示例。如需更多指导信息,请参阅 AutoML Translation 新手指南中的数据准备部分。

TSV

对于制表符分隔文件,每行都具有以下格式:

  • Source segment 制表符 Translated segment

请勿添加包含语言代码的标题行来标识源语言和目标语言。您可以在创建数据集时指定这些语言。以下示例包含英语翻译成德语的语句对:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

TSV 文件中的所有内容都必须是纯文本。如果文本包含 HTML 标记或其他标记,则 Cloud Translation 会将标记视为纯文本。

TMX

TMX 是一种用于提供源文本和目标翻译句段的标准 XML 格式。Cloud Translation 支持基于 TMX 版本 1.4 格式的输入文件。以下示例展示了要求的结构:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

在格式正确的 TMX 文件中,<header> 元素必须使用 srclang 属性标识源语言,并且每个 <tuv> 元素都必须使用 xml:lang 属性标识所含文本的语言。

所有 <tu> 元素必须包含一对具有相同源语言和目标语言的 <tuv> 元素。如果一个 <tu> 元素包含两个以上的 <tuv> 元素,则 Cloud Translation 只会处理与源语言和目标语言匹配的第一对 <tuv> 并忽略其余元素。如果一个 <tu> 元素没有匹配的 <tuv> 元素对,则 Cloud Translation 会跳过无效的 <tu> 元素。

Cloud Translation 在处理 <seg> 元素之前,会先剥离其周围的标记。如果一个 <tuv> 元素包含多个 <seg> 元素,则 Cloud Translation 会将其中的文本串联成一个元素,并在它们之间留一个空格。

如果文件包含上文没有提及的 XML 标记,则 Cloud Translation 将忽略这些标记。

如果文件不符合正确的 XML 和 TMX 格式,例如缺少结束标记或 <tmx> 元素,则 Cloud Translation 将取消处理。如果 Cloud Translation 跳过了 1024 个以上无效的 <tu> 元素,那么也会取消处理。

每种功能的最小所需和最大允许语句对数是不同的。如需了解详情,请参阅 AutoML Translation 数据准备自适应翻译数据要求

后续步骤