翻訳モデルを評価する

Gen AI Evaluation Service では、次の翻訳タスク評価指標が提供されます。

MetricX と COMET は、翻訳タスク用にトレーニングされたポイントベースのモデルベースの指標です。コンテンツの翻訳モデルの結果の品質と精度を評価できます。これは、NMT、TranslationLLM、Gemini モデルの出力であるかどうかに関係ありません。

また、Gemini をジャッジモデルとして使用し、MetricX、COMET、BLEU と組み合わせて、モデルの流暢性、一貫性、冗長性、テキスト品質を評価することもできます。

  • MetricX は Google が開発したエラーベースの指標で、翻訳の品質を表す 0 ~ 25 の浮動小数点スコアを予測します。MetricX は、参照ベースと参照フリー(QE)の両方のメソッドとして使用できます。この指標を使用する場合、スコアが低いほどエラーが少ないことを表すため、スコアが低いほど良いスコアとなります。

  • COMET は、参照ベースの回帰アプローチを採用しており、0 ~ 1 のスコアを提供します。1 は完全な翻訳を示します。

  • BLEU(Bilingual Evaluation Understudy)はコンピューティング ベースの指標です。BLEU スコアは、候補テキストと参照テキストの類似度を示します。BLEU スコア値が 1 に近いほど、翻訳が参照テキストに近いことを示します。

異なるコーパスや言語間で BLEU スコアを比較することは推奨されません。たとえば、英語からドイツ語への BLEU スコアが 50 の場合、日本語から英語への BLEU スコアが 50 の場合とは比較できません。多くの翻訳の専門家は、人間の評価との相関が高く、エラー シナリオをより詳細に特定できるモデルベースの指標アプローチに移行しています。

翻訳モデルの評価を実行する方法については、翻訳モデルを評価するをご覧ください。