评估翻译模型
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Gen AI 评估服务提供以下翻译任务评估指标:
MetricX 和 COMET 是基于点的模型指标,已针对翻译任务进行训练。您可以评估翻译模型针对内容生成的结果的质量和准确性,无论这些结果是 NMT、TranslationLLM 还是 Gemini 模型的输出。
您还可以将 Gemini 用作评判模型,结合使用 MetricX、COMET 或 BLEU 来评估模型的流畅性、连贯性、详细程度和文本质量。
MetricX 是由 Google 开发的一种基于错误的指标,可预测介于 0 到 25 之间的浮点得分,表示译文的质量。MetricX 既可作为基于引用的方法,也可作为无引用 (QE) 方法。使用此指标时,得分越低越好,因为这意味着错误越少。
COMET 采用基于参考的回归方法,得分介于 0 到 1 之间,其中 1 表示完美译文。
BLEU(双语评估研究)是一个基于计算的指标。BLEU 得分表明了候选文本与参考文本的相似程度。BLEU 得分值越接近 1,表示译文越接近参考文本。
请注意,不建议使用 BLEU 得分来比较不同语料库和语言。例如,英语到德语的 BLEU 得分为 50 与日语到英语的 BLEU 得分为 50 不能相提并论。许多翻译专家已转向基于模型的指标方法,这种方法与人工评分具有更高的相关性,并且在识别错误场景方面更精细。
如需了解如何对翻译模型运行评估,请参阅评估翻译模型。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-02-26。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-02-26。"],[],[]]