翻訳モデルを評価する
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
Gen AI Evaluation Service には、次の翻訳タスク評価指標が用意されています。
MetricX と COMET は、翻訳タスク用にトレーニングされたポイントワイズのモデルベースの指標です。コンテンツの翻訳モデルの結果の品質と精度を評価できます。これは、NMT、TranslationLLM、Gemini モデルの出力であるかどうかに関係ありません。
また、Gemini をジャッジモデルとして使用し、MetricX、COMET、BLEU と組み合わせて、モデルの流暢性、一貫性、冗長性、テキスト品質を評価することもできます。
MetricX は Google が開発したエラーベースの指標で、翻訳の品質を表す 0 ~ 25 の浮動小数点スコアを予測します。MetricX は、参照ベースと参照フリー(QE)の両方のメソッドとして使用できます。この指標を使用する場合、スコアが低いほどエラーが少ないことを表すため、スコアが低いほど良いスコアとなります。
COMET は、参照ベースの回帰アプローチを採用しており、0 ~ 1 のスコアを提供します。1 は完全な翻訳を示します。
BLEU(Bilingual Evaluation Understudy)は計算ベースの指標です。BLEU スコアは、候補テキストと参照テキストの類似度を示します。BLEU スコア値が 1 に近いほど、翻訳が参照テキストに近いことを示します。
異なるコーパスや言語間で BLEU スコアを比較することは推奨されません。たとえば、英語からドイツ語への BLEU スコア 50 は、日本語から英語への BLEU スコア 50 とは比較できません。多くの翻訳の専門家は、人間の評価との相関が高く、エラー シナリオをより詳細に特定できるモデルベースの指標アプローチに移行しています。
翻訳モデルの評価を実行する方法については、翻訳モデルを評価するをご覧ください。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-02-26 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-02-26 UTC。"],[],[]]