Gen AI Evaluation Service 提供下列翻譯工作評估指標:
MetricX 和 COMET 是以點為基礎的模型指標,經過訓練可執行翻譯工作。您可以評估內容的翻譯模型結果品質和準確度,無論這些結果是 NMT、TranslationLLM 或 Gemini 模型輸出內容。
您也可以將 Gemini 當做評估模型,搭配 MetricX、COMET 或 BLEU,評估模型的流暢度、連貫性、冗贅程度和文字品質。
MetricX 是 Google 開發的錯誤指標,可預測介於 0 到 25 之間的浮點分數,代表翻譯品質。MetricX 可做為參照式和無參照式 (QE) 方法。使用這項指標時,分數越低越好,因為這代表錯誤較少。
COMET 採用以參照為準的迴歸方法,提供 0 到 1 的分數,其中 1 代表完美翻譯。
BLEU (雙語評估研究) 是以運算為基礎的指標,BLEU 分數表示候選文字與參考文字的相似程度。BLEU 分數越接近 1,表示翻譯越接近參考文字。
請注意,我們不建議使用 BLEU 分數比較不同語料庫和語言。舉例來說,英文到德文的 BLEU 分數 50,與日文到英文的 BLEU 分數 50 無法比較。許多翻譯專家已改用以模型為基礎的指標方法,這類方法與人工評估的相關性較高,且能更精細地識別錯誤情境。
如要瞭解如何執行翻譯模型評估作業,請參閱「評估翻譯模型」。