評估翻譯模型

Gen AI Evaluation Service 提供下列翻譯工作評估指標:

MetricX 和 COMET 是以點為基礎的模型指標,經過訓練可執行翻譯工作。您可以評估內容的翻譯模型結果品質和準確度,無論這些結果是 NMT、TranslationLLM 或 Gemini 模型輸出內容。

您也可以將 Gemini 當做評估模型,搭配 MetricX、COMET 或 BLEU,評估模型的流暢度、連貫性、冗贅程度和文字品質。

  • MetricX 是 Google 開發的錯誤指標,可預測介於 0 到 25 之間的浮點分數,代表翻譯品質。MetricX 可做為參照式和無參照式 (QE) 方法。使用這項指標時,分數越低越好,因為這代表錯誤較少。

  • COMET 採用以參照為準的迴歸方法,提供 0 到 1 的分數,其中 1 代表完美翻譯。

  • BLEU (雙語評估研究) 是以運算為基礎的指標,BLEU 分數表示候選文字與參考文字的相似程度。BLEU 分數越接近 1,表示翻譯越接近參考文字。

請注意,我們不建議使用 BLEU 分數比較不同語料庫和語言。舉例來說,英文到德文的 BLEU 分數 50,與日文到英文的 BLEU 分數 50 無法比較。許多翻譯專家已改用以模型為基礎的指標方法,這類方法與人工評估的相關性較高,且能更精細地識別錯誤情境。

如要瞭解如何執行翻譯模型評估作業,請參閱「評估翻譯模型」。