Cette page a été traduite par l'API Cloud Translation.

Évaluer les modèles de traduction

Le service d'évaluation de l'IA générative propose les métriques d'évaluation des tâches de traduction suivantes:

MetricX
COMET
BLEU

MetricX et COMET sont des métriques basées sur un modèle point par point qui ont été entraînées pour des tâches de traduction. Vous pouvez évaluer la qualité et la précision des résultats des modèles de traduction pour votre contenu, qu'il s'agisse de sorties de modèles NMT, TranslationLLM ou Gemini.

Vous pouvez également utiliser Gemini comme modèle d'évaluation pour évaluer la fluidité, la cohérence, la verbosité et la qualité du texte de votre modèle en combinaison avec MetricX, COMET ou BLEU.

MetricX est une métrique basée sur les erreurs développée par Google. Elle prédit un score à virgule flottante compris entre 0 et 25, qui représente la qualité d'une traduction. MetricX est disponible à la fois en tant que méthode basée sur des références et en tant que méthode sans référence (QE). Lorsque vous utilisez cette métrique, un score plus faible est meilleur, car cela signifie qu'il y a moins d'erreurs.
COMET utilise une approche de régression basée sur des références qui fournit des scores compris entre 0 et 1, où 1 signifie une traduction parfaite.
Le BLEU (Bilingual Evaluation Understudy) est une métrique basée sur le calcul. Le score BLEU indique la similitude entre le texte candidat et le texte de référence. Plus la valeur de score BLEU est proche de 1, plus la traduction est proche du texte de référence.

Notez qu'il est déconseillé de comparer des scores BLEU entre différents corpus et différentes langues. Par exemple, un score BLEU de 50 pour une traduction de l'anglais vers l'allemand n'est pas comparable à un score BLEU de 50 pour une traduction du japonais vers l'anglais. De nombreux experts en traduction ont adopté des approches de métriques basées sur des modèles, qui présentent une corrélation plus élevée avec les évaluations humaines et sont plus précises pour identifier les scénarios d'erreur.

Pour savoir comment exécuter des évaluations pour des modèles de traduction, consultez Évaluer un modèle de traduction.