Prepare los datos de entrenamiento
Cloud Translation entrena modelos personalizados mediante el uso de pares coincidentes de segmentos en los idiomas de origen y destino. Trata cada par de segmentos como un elemento de entrenamiento independiente, sin suponer ninguna correlación entre pares separados.
Los pares de segmentos que uses para entrenar tu modelo personalizado deben estar en los valores delimitados por tabulaciones (.tsv
) o en el formato de Translation Memory eXchange (.tmx
).
Para obtener más información, consulta Prepara traducciones de ejemplo.
Se anula la duplicación de los pares de segmentos en todos los pares importados. Un par de segmentos es un duplicado de otro cuando su segmento de origen coincide con otro segmento. Cloud Translation no te permite importar archivos con el mismo contenido.
División de datos
AutoML Translation usa los pares de segmentos que proporcionas para diferentes propósitos mientras creas tu modelo personalizado:
- Entrenar: Pares de segmentos para entrenar el modelo. Asigna la mayoría de tus datos para este fin.
- Validación: Pares de segmentos para validar los resultados que muestra el modelo durante el entrenamiento.
- Prueba: Pares de segmentos para generar las métricas de evaluación finales de tu modelo. Indica el rendimiento que el modelo podría tener en producción.
Puedes controlar qué pares de segmentos utiliza AutoML Translation para cada propósito mediante la carga de archivos separados para los conjuntos de entrenamiento, validación y prueba. Si no especificas explícitamente qué archivos usar para estos tres propósitos, AutoML Translation divide automáticamente tus pares de segmentos en tres conjuntos. AutoML Translation usa aproximadamente el 80% de tus datos para entrenamiento, el 10% para validación y el 10% para pruebas. AutoML Translation asigna tus pares de segmentos de forma aleatoria a los tres conjuntos. Puedes tener un máximo de 10,000 pares de segmentos cada uno para los conjuntos de validación y prueba. Después de 10,000 pares, los pares de segmentos se envían al conjunto de entrenamiento.
Si realizas varias importaciones de datos en el mismo conjunto de datos, puedes especificar de forma manual la división de datos para una importación y usar la división automática en otra. Los datos siempre se vuelven a equilibrar con respecto a la división manual después de cada importación y eliminación de archivos.
Requisitos de los datos
Los datos de tu entrenamiento deben cumplir con los siguientes requisitos:
- Si permites que AutoML Translation divida tus datos de forma automática, debes enviar al menos 1,000 pares de segmentos para entrenar un modelo personalizado.
- Si divides los datos de forma manual, debes proporcionar al menos tres pares de segmentos para el conjunto
TRAIN
y debes tener al menos 100 pares de segmentos para los conjuntosVALIDATION
yTEST
. - Debes proporcionar al menos tres pares de segmentos para el conjunto
TRAIN
y debes tener al menos 100 pares de segmentos para los conjuntosVALIDATION
yTEST
. - No puedes proporcionar más de 10,000 pares de segmentos para los conjuntos
VALIDATION
yTEST
. - El conjunto de datos no puede superar el máximo de 15 millones de pares de segmentos.
Recomendaciones de datos
Las siguientes recomendaciones pueden ayudarte a aumentar la calidad de tu modelo:
- Usa al menos 5,000 pares de segmentos para
TRAIN
, 500 pares de segmentos paraVALIDATION
y 500 pares de segmentos paraTEST
. Dicho esto, usa más datos si es posible. Tener más datos en el conjuntoTRAIN
ayuda a que el modelo aprenda patrones, y tener más datos en los conjuntosVALIDATION
yTEST
ayuda a verificar que el modelo se pueda generalizar a una variedad más amplia. de diferentes situaciones en tu dominio. - Los segmentos deben tener aproximadamente 200 palabras o menos. AutoML Translation podría descartar pares de segmentos más grandes. Para obtener más información, consulta Problemas de importación.
- Soluciona los problemas de datos de origen comunes, como se describe en la parte "Limpia los datos desordenados" en la sección Preparación de datos de la descripción general.