Evaluar modelos
Después de entrenar un modelo, AutoML Translation usa el conjunto de datos TEST
para evaluar la calidad y la precisión del nuevo modelo. AutoML Translation expresa la calidad del modelo mediante su puntuación BLEU (Bilingual Evaluation Understudy), que indica el grado de similitud entre el texto candidato y el texto de referencia. Un valor de puntuación BLEU más cercano a uno indica que una traducción se parece más al texto de referencia.
Usa estos datos para evaluar si tu modelo está listo. Para mejorar la calidad de tu modelo, añade más pares de segmentos de entrenamiento (y que sean más diversos). Después de ajustar el conjunto de datos, entrena un nuevo modelo con el conjunto de datos mejorado.
Ten en cuenta que no se recomienda usar las puntuaciones BLEU para comparar diferentes corpus e idiomas. Por ejemplo, una puntuación BLEU de 50 en una traducción de inglés a alemán no es comparable con una puntuación BLEU de 50 en una traducción de japonés a inglés. Muchos expertos en traducción han adoptado enfoques métricos basados en modelos, que tienen una mayor correlación con las valoraciones humanas y son más específicos a la hora de identificar escenarios de error.
AutoML Translation solo admite puntuaciones BLEU. Para evaluar tu modelo de traducción con métricas basadas en modelos, consulta el servicio de evaluación de IA generativa de Vertex AI.
Obtener la evaluación del modelo
Ve a la consola de AutoML Translation.
En el menú de navegación, haga clic en Modelos para ver una lista de sus modelos.
Haz clic en el modelo que quieras evaluar.
Haz clic en la pestaña Entrenar para ver las métricas de evaluación del modelo, como su puntuación BLEU.
Probar las predicciones del modelo
Con la Google Cloud consola, puedes comparar los resultados de traducción de tu modelo personalizado con los del modelo de NMT predeterminado.
Ve a la consola de AutoML Translation.
En el menú de navegación, haga clic en Modelos para ver una lista de sus modelos.
Haz clic en el modelo que quieras probar.
Haga clic en la pestaña Predecir.
Añade el texto de entrada en el cuadro de texto del idioma de origen.
Haz clic en Traducir.
AutoML Translation muestra los resultados de traducción del modelo personalizado y del modelo de NMT.
Evaluar y comparar modelos con un nuevo conjunto de prueba
Desde la Google Cloud consola, puedes volver a evaluar los modelos que ya tienes usando un nuevo conjunto de datos de prueba. En una sola evaluación, puede incluir hasta 5 modelos diferentes y, a continuación, comparar sus resultados.
Sube tus datos de prueba a Cloud Storage en formato de valores separados por tabulaciones (TSV) o en formato Translation Memory eXchange (TMX).
AutoML Translation evalúa tus modelos con el conjunto de prueba y, a continuación, genera puntuaciones de evaluación. También puede guardar los resultados de cada modelo como un archivo TSV en un segmento de Cloud Storage, donde cada fila tenga el siguiente formato:
Source segment tab Model candidate translation tab Reference translation
Ve a la consola de AutoML Translation.
En el menú de navegación, haga clic en Modelos para ver una lista de sus modelos.
Haz clic en el modelo que quieras evaluar.
Haga clic en la pestaña Evaluar.
En la pestaña Evaluar, haz clic en Nueva evaluación.
Selecciona los modelos que quieras evaluar y comparar y, a continuación, haz clic en Siguiente.
El modelo actual debe estar seleccionado. De forma predeterminada, se selecciona la traducción automática neuronal de Google, que puedes desmarcar.
Especifica un nombre para el Nombre del conjunto de pruebas para distinguirlo de otras evaluaciones y, a continuación, selecciona el nuevo conjunto de pruebas en Cloud Storage.
Haz clic en Siguiente.
Para exportar las predicciones, especifica una carpeta de destino de Cloud Storage.
Haz clic en Iniciar evaluación.
AutoML Translation muestra las puntuaciones de evaluación en formato de tabla en la consola una vez finalizada la evaluación. Solo puedes realizar una evaluación a la vez. Si ha especificado una carpeta para almacenar los resultados de las predicciones, AutoML Translation escribirá archivos TSV en esa ubicación con el ID del modelo asociado y el nombre del conjunto de prueba.
Información sobre la puntuación BLEU
BLEU (BiLingual Evaluation Understudy) es una métrica que se usa para evaluar automáticamente el texto traducido por una máquina. La puntuación BLEU es un número entre cero y uno que mide la similitud del texto traducido por una máquina con un conjunto de traducciones de referencia de alta calidad. Un valor de 0 significa que la salida traducida por una máquina no se solapa con la traducción de referencia (lo que indica una calidad inferior), mientras que un valor de 1 significa que se solapa perfectamente con la traducción de referencia (lo que indica una calidad superior).
AutoML Translation expresa las puntuaciones BLEU como un porcentaje en lugar de un decimal entre 0 y 1.
Interpretación
Como guía general, puede ser útil la siguiente interpretación de las puntuaciones BLEU (expresadas como porcentajes en lugar de decimales).
Puntuación BLEU | Interpretación |
---|---|
< 10 | Casi inútil |
10-19 | Es difícil entender la idea principal |
20 - 29 | La idea principal es clara, pero contiene errores gramaticales importantes |
30 - 40 | Traducciones comprensibles o buenas |
Entre 40 y 50 | Traducciones de alta calidad |
50 - 60 | Traducciones de muy alta calidad, adecuadas y fluidas |
> 60 | Calidad a menudo mejor que la humana |
El siguiente gradiente de color se puede usar como una interpretación general de la escala de la puntuación BLEU:
Detalles matemáticos
Matemáticamente, la puntuación BLEU se define de la siguiente manera:
con
\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]
donde
- \(m_{cand}^i\hphantom{xi}\) es el recuento de i-gramas de la traducción candidata que coinciden con la traducción de referencia.
- \(m_{ref}^i\hphantom{xxx}\) es el número de i-gramas de la traducción de referencia
- \(w_t^i\hphantom{m_{max}}\) es el número total de i-gramas de la traducción candidata
La fórmula consta de dos partes: la penalización por brevedad y la superposición de n-gramas.
Penalización por brevedad
La penalización por brevedad penaliza las traducciones generadas que son demasiado cortas en comparación con la longitud de la referencia más parecida con un descenso exponencial. La penalización por brevedad compensa el hecho de que la puntuación BLEU no tiene ningún término de recuperación.Solapamiento de n-gramas
El solapamiento de n-gramas cuenta cuántos unigramas, bigramas, trigramas y cuatrigramas (i=1,...,4) coinciden con su n-grama correspondiente en las traducciones de referencia. Este término actúa como métrica de precisión. Los unigramas representan la adecuación, mientras que los n-gramas más largos representan la fluidez de la traducción. Para evitar que se cuenten de más, los recuentos de n-gramas se limitan al recuento máximo de n-gramas que se produce en la referencia (\(m_{ref}^n\)).
Ejemplos
Calculando \(precision_1\)
Echa un vistazo a esta oración de referencia y a la traducción candidata:
Referencia: the cat is on the mat
Candidato: the the the cat mat
El primer paso es contar las apariciones de cada unigrama en la referencia y en la candidata. Ten en cuenta que la métrica BLEU distingue entre mayúsculas y minúsculas.
Unigrama | \(m_{cand}^i\hphantom{xi}\) | \(m_{ref}^i\hphantom{xxx}\) | \(\min(m^i_{cand}, m^i_{ref})\) |
---|---|---|---|
the |
3 | 2 | 2 |
cat |
1 | 1 | 1 |
is |
0 | 1 | 0 |
on |
0 | 1 | 0 |
mat |
1 | 1 | 1 |
El número total de unigramas de la candidata (\(w_t^1\)) es 5, por lo que \(precision_1\) = (2 + 1 + 1)/5 = 0,8.
Cálculo de la puntuación BLEU
Referencia:
The NASA Opportunity rover is battling a massive dust storm on Mars .
Candidato 1:
The Opportunity rover is combating a big sandstorm on Mars .
Candidato 2:
A NASA rover is fighting a massive storm on Mars .
El ejemplo anterior consta de una sola referencia y dos traducciones candidatas. Las frases se tokenizan antes de calcular la puntuación BLEU, tal como se muestra arriba. Por ejemplo, el punto final se cuenta como un token independiente.
Para calcular la puntuación BLEU de cada traducción, calculamos las siguientes estadísticas.
- Precisión de n-gramas
En la siguiente tabla se muestra la precisión de n-gramas de ambas candidatas. - Brevity-Penalty
La penalización por brevedad es la misma para la opción 1 y la opción 2, ya que ambas frases constan de 11 tokens. - Puntuación BLEU
Ten en cuenta que se necesita al menos un 4-grama coincidente para obtener una puntuación BLEU > 0. Como la traducción candidata 1 no tiene ningún 4-grama coincidente, su puntuación BLEU es 0.
Métrica | Candidato 1 | Candidato 2 |
---|---|---|
\(precision_1\) (1 gramo) | 8/11 | 9/11 |
\(precision_2\) (2 g) | 4/10 | 5/10 |
\(precision_3\) (3 g) | 2/9 | 2/9 |
\(precision_4\) (4gram) | 0/8 | 1/8 |
Brevity-Penalty | 0,83 | 0,83 |
Puntuación BLEU | 0,0 | 0,27 |
Propiedades
BLEU es una métrica basada en corpus
La métrica BLEU no funciona bien cuando se usa para evaluar frases concretas. Por ejemplo, ambas frases de ejemplo obtienen puntuaciones BLEU muy bajas, aunque transmiten la mayor parte del significado. Como las estadísticas de n-gramas de frases individuales son menos significativas, BLEU es una métrica basada en corpus por diseño. Es decir, las estadísticas se acumulan en todo un corpus al calcular la puntuación. Ten en cuenta que la métrica BLEU definida anteriormente no se puede factorizar para frases individuales.No se distingue entre palabras de contenido y palabras funcionales
La métrica BLEU no distingue entre palabras de contenido y palabras funcionales. Es decir, si se omite una palabra funcional como "a", se aplica la misma penalización que si el nombre "NASA" se sustituyera erróneamente por "ESA".No es bueno para captar el significado y la gramática de una frase
La omisión de una sola palabra, como "no", puede cambiar la polaridad de una frase. Además, si solo se tienen en cuenta los n-gramas con n≤4, se ignoran las dependencias de largo alcance, por lo que BLEU a menudo solo impone una pequeña penalización por las frases que no son gramaticales.Normalización y tokenización
Antes de calcular la puntuación BLEU, tanto la traducción de referencia como la candidata se normalizan y se tokenizan. La elección de los pasos de normalización y tokenización influye significativamente en la puntuación BLEU final.