Preparar los datos de entrenamiento
Cloud Translation entrena modelos personalizados usando pares coincidentes de segmentos en los idiomas de origen y de destino. Trata cada par de segmentos como un elemento de entrenamiento independiente, sin asumir ninguna correlación entre pares independientes.
Los pares de segmentos que se usan para entrenar tu modelo personalizado deben estar en formato de valores separados por tabulaciones (.tsv
) o Translation Memory eXchange (.tmx
).
Para obtener más información, consulta Preparar traducciones de ejemplo.
Los pares de segmentos siempre se desduplican en todos los pares importados. Un par de segmentos es un duplicado de otro cuando su segmento de origen coincide con otro segmento de origen. Cloud Translation no permite importar archivos con el mismo contenido.
División de datos
AutoML Translation usa los pares de segmentos que proporcionas para diferentes fines al crear tu modelo personalizado:
- Entrenar: pares de segmentos para entrenar el modelo. Asigna la mayor parte de tus datos a este propósito.
- Validación: segmenta los pares para validar los resultados que devuelve el modelo durante el entrenamiento.
- Prueba: segmenta los pares para generar las métricas de evaluación finales de tu modelo. Indica cómo podría funcionar el modelo en producción.
Puedes controlar qué pares de segmentos usa AutoML Translation para cada propósito subiendo archivos independientes para los conjuntos de entrenamiento, validación y prueba. Si no especificas qué archivos quieres usar para estos tres propósitos, AutoML Translation dividirá automáticamente los pares de segmentos en tres conjuntos. AutoML Translation usa aproximadamente el 80% de tus datos para el entrenamiento, el 10% para la validación y el 10% para las pruebas. AutoML Translation asigna aleatoriamente los pares de segmentos a los tres conjuntos. Puede tener un máximo de 10.000 pares de segmentos en los conjuntos de validación y de prueba. Después de 10.000 pares, los pares de segmentos se envían al conjunto de entrenamiento.
Si importas varios conjuntos de datos en el mismo conjunto de datos, puedes especificar manualmente la división de datos de una importación y usar la división automática en otra. Los datos siempre se vuelven a equilibrar con respecto a la división manual después de cada importación y eliminación de archivos.
Requisitos de datos
Los datos de entrenamiento deben cumplir los siguientes requisitos:
- Si dejas que AutoML Translation divida tus datos automáticamente, debes enviar al menos 1000 pares de segmentos para entrenar un modelo personalizado.
- Si divide los datos manualmente, debe proporcionar al menos tres pares de segmentos para el conjunto
TRAIN
y al menos 100 pares de segmentos para los conjuntosVALIDATION
yTEST
. - Debes proporcionar al menos tres pares de segmentos para el conjunto
TRAIN
y al menos 100 pares de segmentos para los conjuntosVALIDATION
yTEST
. - No puedes proporcionar más de 10.000 pares de segmentos para cada uno de los conjuntos
VALIDATION
yTEST
. - El conjunto de datos no puede superar el máximo de 15 millones de pares de segmentos.
Recomendaciones de datos
Las siguientes recomendaciones pueden ayudarte a mejorar la calidad de tu modelo:
- Usa al menos 5000 pares de segmentos para
TRAIN
, 500 pares de segmentos paraVALIDATION
y 500 pares de segmentos paraTEST
. Dicho esto, usa más datos si es posible. Tener más datos para el conjuntoTRAIN
ayuda al modelo a aprender patrones, mientras que tener más datos para los conjuntosVALIDATION
yTEST
ayuda a verificar que el modelo se puede generalizar a una mayor variedad de situaciones en tu dominio. - Los segmentos deben tener unas 200 palabras como máximo. Es posible que AutoML Translation elimine los pares de segmentos que superen ese tamaño. Para obtener más información, consulta Importar problemas.
- Soluciona los problemas habituales de los datos de origen, tal como se describe en la parte "Limpiar datos desordenados" de la sección Preparación de datos del artículo de resumen.