El servicio de evaluación de IA generativa ofrece las siguientes métricas de evaluación de tareas de traducción:
MetricX y COMET son métricas basadas en modelos por puntos que se entrenaron para tareas de traducción. Puedes evaluar la calidad y precisión de los resultados de los modelos de traducción para tu contenido, ya sean resultados de modelos de NMT, TranslationLLM o Gemini.
También puedes usar Gemini como modelo de juez para evaluar tu modelo en términos de fluidez, coherencia, verbosidad y calidad del texto en combinación con MetricX, COMET o BLEU.
MetricX es una métrica basada en errores que desarrolló Google y que predice una puntuación de punto flotante entre 0 y 25 que representa la calidad de una traducción. MetricX está disponible como método basado en referencias y sin referencias (QE). Cuando usas esta métrica, una puntuación más baja es mejor, ya que significa que hay menos errores.
COMET emplea un enfoque de regresión basado en referencias que proporciona puntuaciones que van de 0 a 1, donde 1 significa una traducción perfecta.
BLEU (Bilingual Evaluation Understudy) es una métrica basada en el procesamiento. La puntuación BLEU indica el grado de similitud entre el texto candidato y el texto de referencia. Un valor de puntuación BLEU que está más cerca de uno indica que una traducción está más cerca del texto de referencia.
Ten en cuenta que no se recomiendan las puntuaciones BLEU para comparar diferentes idiomas y corpus. Por ejemplo, una puntuación BLEU de 50 de inglés a alemán no es comparable a una puntuación BLEU de 50 de japonés a inglés. Muchos expertos en traducción cambiaron a enfoques de métricas basados en modelos, que tienen una mayor correlación con las calificaciones humanas y son más detallados en la identificación de situaciones de error.
Para obtener información sobre cómo ejecutar evaluaciones de modelos de traducción, consulta Cómo evaluar un modelo de traducción.