Prepare los datos de entrenamiento

Cloud Translation entrena modelos personalizados mediante el uso de pares coincidentes de segmentos en los idiomas de origen y destino. Trata cada par de segmentos como un elemento de entrenamiento independiente, sin suponer ninguna correlación entre pares separados.

Los pares de segmentos que uses para entrenar tu modelo personalizado deben estar en los valores delimitados por tabulaciones (.tsv) o en el formato de Translation Memory eXchange (.tmx). Para obtener más información, consulta Prepara traducciones de ejemplo.

Se anula la duplicación de los pares de segmentos en todos los pares importados. Un par de segmentos es un duplicado de otro cuando su segmento de origen coincide con otro segmento. Cloud Translation no te permite importar archivos con el mismo contenido.

División de datos

AutoML Translation usa los pares de segmentos que proporcionas para diferentes propósitos mientras creas tu modelo personalizado:

  • Entrenar: Pares de segmentos para entrenar el modelo. Asigna la mayoría de tus datos para este fin.
  • Validación: Pares de segmentos para validar los resultados que muestra el modelo durante el entrenamiento.
  • Prueba: Pares de segmentos para generar las métricas de evaluación finales de tu modelo. Indica el rendimiento que el modelo podría tener en producción.

Puedes controlar qué pares de segmentos utiliza AutoML Translation para cada propósito mediante la carga de archivos separados para los conjuntos de entrenamiento, validación y prueba. Si no especificas explícitamente qué archivos usar para estos tres propósitos, AutoML Translation divide automáticamente tus pares de segmentos en tres conjuntos. AutoML Translation usa aproximadamente el 80% de tus datos para entrenamiento, el 10% para validación y el 10% para pruebas. AutoML Translation asigna tus pares de segmentos de forma aleatoria a los tres conjuntos. Puedes tener un máximo de 10,000 pares de segmentos cada uno para los conjuntos de validación y prueba. Después de 10,000 pares, los pares de segmentos se envían al conjunto de entrenamiento.

Si realizas varias importaciones de datos en el mismo conjunto de datos, puedes especificar de forma manual la división de datos para una importación y usar la división automática en otra. Los datos siempre se vuelven a equilibrar con respecto a la división manual después de cada importación y eliminación de archivos.

Requisitos de los datos

Los datos de tu entrenamiento deben cumplir con los siguientes requisitos:

  • Si permites que AutoML Translation divida tus datos de forma automática, debes enviar al menos 1,000 pares de segmentos para entrenar un modelo personalizado.
  • Si divides los datos de forma manual, debes proporcionar al menos tres pares de segmentos para el conjunto TRAIN y debes tener al menos 100 pares de segmentos para los conjuntos VALIDATION y TEST.
  • Debes proporcionar al menos tres pares de segmentos para el conjunto TRAIN y debes tener al menos 100 pares de segmentos para los conjuntos VALIDATION y TEST.
  • No puedes proporcionar más de 10,000 pares de segmentos para los conjuntos VALIDATION y TEST.
  • El conjunto de datos no puede superar el máximo de 15 millones de pares de segmentos.

Recomendaciones de datos

Las siguientes recomendaciones pueden ayudarte a aumentar la calidad de tu modelo:

  • Usa al menos 5,000 pares de segmentos para TRAIN, 500 pares de segmentos para VALIDATION y 500 pares de segmentos para TEST. Dicho esto, usa más datos si es posible. Tener más datos en el conjunto TRAIN ayuda a que el modelo aprenda patrones, y tener más datos en los conjuntos VALIDATION y TEST ayuda a verificar que el modelo se pueda generalizar a una variedad más amplia. de diferentes situaciones en tu dominio.
  • Los segmentos deben tener aproximadamente 200 palabras o menos. AutoML Translation podría descartar pares de segmentos más grandes. Para obtener más información, consulta Problemas de importación.
  • Soluciona los problemas de datos de origen comunes, como se describe en la parte "Limpia los datos desordenados" en la sección Preparación de datos de la descripción general.

¿Qué sigue?