このページは Cloud Translation API によって翻訳されました。

翻訳モデルを評価する

Gen AI Evaluation Service では、次の翻訳タスク評価指標が提供されます。

MetricX
COMET
BLEU

MetricX と COMET は、翻訳タスク用にトレーニングされたポイントベースのモデルベースの指標です。コンテンツの翻訳モデルの結果の品質と精度を評価できます。これは、NMT、TranslationLLM、Gemini モデルの出力であるかどうかに関係ありません。

また、Gemini をジャッジモデルとして使用し、MetricX、COMET、BLEU と組み合わせて、モデルの流暢性、一貫性、冗長性、テキスト品質を評価することもできます。

MetricX は Google が開発したエラーベースの指標で、翻訳の品質を表す 0 ～ 25 の浮動小数点スコアを予測します。MetricX は、参照ベースと参照フリー（QE）の両方のメソッドとして使用できます。この指標を使用する場合、スコアが低いほどエラーが少ないことを表すため、スコアが低いほど良いスコアとなります。
COMET は、参照ベースの回帰アプローチを採用しており、0 ～ 1 のスコアを提供します。1 は完全な翻訳を示します。
BLEU（Bilingual Evaluation Understudy）はコンピューティングベースの指標です。BLEU スコアは、候補テキストと参照テキストの類似度を示します。BLEU スコア値が 1 に近いほど、翻訳が参照テキストに近いことを示します。

異なるコーパスや言語間で BLEU スコアを比較することは推奨されません。たとえば、英語からドイツ語への BLEU スコアが 50 の場合、日本語から英語への BLEU スコアが 50 の場合とは比較できません。多くの翻訳の専門家は、人間の評価との相関が高く、エラーシナリオをより詳細に特定できるモデルベースの指標アプローチに移行しています。

翻訳モデルの評価を実行する方法については、翻訳モデルを評価するをご覧ください。