Gen AI Evaluation Service 提供以下翻译任务评估指标:
MetricX 和 COMET 是基于模型的逐点指标,已针对翻译任务进行训练。您可以评估内容的翻译模型结果的质量和准确性,无论这些结果是 NMT、TranslationLLM 还是 Gemini 模型的输出。
您还可以将 Gemini 用作评判模型,结合使用 MetricX、COMET 或 BLEU 来评估模型的流畅性、连贯性、详实程度和文本质量。
MetricX 是由 Google 开发的一种基于错误的指标,可预测介于 0 到 25 之间的浮点得分,表示译文的质量。MetricX 既可作为基于引用的方法,也可作为无引用 (QE) 方法。使用此指标时,得分越低越好,因为这意味着错误越少。
COMET 采用基于参考的回归方法,得分介于 0 到 1 之间,其中 1 表示完美译文。
BLEU(双语替换评测)是一种基于计算的指标。BLEU 得分表明了候选文本与参考文本的相似程度。BLEU 得分值越接近 1,说明译文越接近参考文本。
请注意,不建议使用 BLEU 得分来比较不同语料库和语言。例如,英德 BLEU 得分为 50 与日英 BLEU 得分为 50 不能相提并论。许多翻译专家已转向基于模型的指标方法,这种方法与人工评分具有更高的相关性,并且在识别错误场景方面更精细。
如需了解如何对翻译模型运行评估,请参阅评估翻译模型。