准备训练数据

Cloud Translation 使用源语言和目标语言中匹配的句段对来训练自定义模型。它会将每一对句段视为一个独立的训练项,而不是假定两个单独句段对之间有任何关联。

用于训练自定义模型的句对必须采用制表符分隔值 (.tsv) 或 Translation Memory eXchange (.tmx) 格式。 如需了解详情,请参阅准备示例翻译

系统始终会对导入的所有句段对执行重复数据删除操作。如果某个句段对的源句段与另一个句段对的源句段匹配,则该句段对为另一个句段对的重复句段对。Cloud Translation 不允许导入内容相同的文件。

数据拆分

AutoML Translation 在创建自定义模型时,会将您提供的句段对用于不同的目的:

  • 训练 -用于训练模型的句段对。为此目的分配大部分数据。
  • 验证 - 用于验证训练期间模型返回的结果的句段对。
  • 测试 - 用于生成模型最终评估指标的句段对。表示模型在生产环境中的表现。

通过为训练集、验证集和测试集分别上传文件,您就可以控制 AutoML Translation 用于各种用途的句段对。如果您没有明确指定用于这三种用途的文件,则 AutoML Translation 会自动将您的句段对分为三个数据集。 AutoML Translation 会将大约 80% 的数据用于训练,10% 用于验证,另外 10% 用于测试。AutoML Translation 将句段对随机分配给三个集合。验证集和测试集最多可以有 1 万个句段对。超过 1 万个句段对后,句段对会被推送到训练集。

如果您要对同一个数据集执行多次数据导入,则可以为某一次导入操作手动指定数据分割,并为另一次导入操作使用自动分割功能。每次导入数据并删除文件后,AutoML Translation 始终会根据手动分割情况重新均衡数据。

数据要求

您的训练数据必须符合以下要求:

  • 如果您允许 AutoML Translation 自动分割数据,则必须提交至少 1000 个句段对来训练自定义模型。
  • 如果您手动分割数据,则必须为 TRAIN 集提供至少三个句段对,并且 VALIDATIONTEST 集必须至少有 100 个句段对。
  • 您必须为 TRAIN 集提供至少三个句段对,并且 VALIDATIONTEST 集必须至少有 100 个句段对。
  • 您最多只能为每个 VALIDATIONTEST 集提供 1 万个句段对。
  • 您的数据集中的句段对数量不能超过 1500 万个。

数据建议

以下建议可以帮您提高模型的质量:

  • 对于 TRAIN,使用至少 5000 个句段对;为 VALIDATION 使用 500 个句段对,为 TEST 使用至少 500 个句段对。也就是说,尽量使用更多数据。为 TRAIN 集提供更多数据有助于模型学习模式,而为 VALIDATIONTEST 集合提供更多数据则有助于验证模型是否可以泛化为您的领域中更为广泛的场景。
  • 句段长度应尽量保持在不超过 200 字。AutoML Translation 可能会删除大于此值的句段对。如需了解详情,请参阅导入问题
  • 按照概览的数据准备部分中的“清理杂乱的数据”所述,解决常见的源数据问题。

后续步骤