评估翻译模型

Gen AI Evaluation Service 提供以下翻译任务评估指标：

MetricX 和 COMET 是基于模型的逐点指标，已针对翻译任务进行训练。您可以评估翻译模型对您内容的翻译结果的质量和准确性，无论这些结果是 NMT、TranslationLLM 还是 Gemini 模型的输出。

您还可以将 Gemini 用作评判模型，结合使用 MetricX、COMET 或 BLEU 来评估模型的流畅度、连贯性、详细程度和文本质量。

MetricX 是由 Google 开发的基于错误的指标，它会预测一个介于 0 到 25 之间的浮点得分，以表示翻译的质量。MetricX 既可作为基于参考文本的方法，也可作为无参考文本 (QE) 的方法。使用此指标时，得分越低越好，因为这意味着错误越少。
COMET 采用基于参考文本的回归方法，提供介于 0 到 1 之间的得分，其中 1 表示完美翻译。
BLEU（双语替换评测）是一种基于计算的指标。BLEU 得分表明了候选文本与参考文本的相似程度。BLEU 得分值越接近 1，说明译文越接近参考文本。

请注意，不建议将 BLEU 得分用于比较不同语料库和语言。例如，英语到德语的 BLEU 得分为 50，与日语到英语的 BLEU 得分为 50 是不可比的。许多翻译专家已转向基于模型的指标方法，这些方法与人工评分相关性更高，并且在识别错误场景方面更精细。

如需了解如何对翻译模型运行评估，请参阅评估翻译模型。

评估翻译模型 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。