本頁面由 Cloud Translation API 翻譯而成。

評估翻譯模型

Gen AI Evaluation Service 提供下列翻譯工作評估指標：

MetricX 和 COMET 是以點為基礎的模型指標，經過訓練可執行翻譯工作。您可以評估內容的翻譯模型結果品質和準確度，無論這些結果是 NMT、TranslationLLM 或 Gemini 模型輸出內容。

您也可以將 Gemini 當做評估模型，搭配 MetricX、COMET 或 BLEU，評估模型的流暢度、連貫性、冗贅程度和文字品質。

MetricX 是 Google 開發的錯誤指標，可預測介於 0 到 25 之間的浮點分數，代表翻譯品質。MetricX 可做為參照式和無參照式 (QE) 方法。使用這項指標時，分數越低越好，因為這代表錯誤較少。
COMET 採用以參照為準的迴歸方法，提供 0 到 1 的分數，其中 1 代表完美翻譯。
BLEU (雙語評估研究) 是以運算為基礎的指標，BLEU 分數表示候選文字與參考文字的相似程度。BLEU 分數越接近 1，表示翻譯越接近參考文字。

請注意，我們不建議使用 BLEU 分數比較不同語料庫和語言。舉例來說，英文到德文的 BLEU 分數 50，與日文到英文的 BLEU 分數 50 無法比較。許多翻譯專家已改用以模型為基礎的指標方法，這類方法與人工評估的相關性較高，且能更精細地識別錯誤情境。

如要瞭解如何執行翻譯模型評估作業，請參閱「評估翻譯模型」。

評估翻譯模型 透過集合功能整理內容 你可以依據偏好儲存及分類內容。