Prepara los datos de entrenamiento

AutoML Translation entrena modelos personalizados mediante el uso de pares de oraciones equivalentes en el idioma de origen y el idioma objetivo. Trata cada par de oraciones como un elemento de entrenamiento independiente, sin suponer ninguna correlación entre pares separados.

Los pares de oraciones usados para entrenar tu modelo personalizado deben estar en formato de valores separados por tabulaciones (.tsv) o de intercambio de memorias de traducción (.tmx). Puedes agrupar varios archivos .tsv y .tmx en un archivo de valores separados por comas (.csv). Puedes importar archivos .tsv o .tmx individuales mediante la consola de Google Cloud. Si usas la API de AutoML, solo puedes usar archivos .csv.

Se anula la duplicación de los pares de oraciones en todos los pares de oraciones importados. Un par de oraciones es un duplicado de otro cuando su oración de origen coincide con otra oración de origen. Además, AutoML Translation no permite importar archivos con el mismo contenido.

Para obtener una lista de pares de idiomas compatibles, consulta Idiomas admitidos para modelos personalizados.

División de datos

AutoML Translation usa los pares de oraciones que proporcionas para entrenar, validar y probar tu modelo personalizado.

  • TRAIN: Usa el sentence pairs para entrenar el modelo.
  • VALIDATION: Usa el sentence pairs para validar los resultados que muestra el modelo durante el entrenamiento.
  • TEST: Usa el sentence pairs para verificar los resultados del modelo después de entrenarlo.

Puedes controlar qué pares de oraciones utiliza AutoML Translation para cada propósito mediante la carga de archivos separados para los conjuntos de entrenamiento, validación y prueba. Si no especificas explícitamente qué archivos usar para estos tres propósitos, AutoML Translation divide automáticamente tus pares de oraciones en tres conjuntos. AutoML Translation usa aproximadamente el 80% de tus datos para entrenamiento, el 10% para validación y el 10% para pruebas. AutoML Translation divide tus datos de forma aleatoria en los tres conjuntos. Puedes tener un máximo de 10,000 pares de oraciones cada uno para los conjuntos de validación y prueba. Después de 10,000 pares, los pares de oraciones se envían al conjunto de entrenamiento.

Si realizas varias importaciones de datos en el mismo conjunto de datos, puedes especificar de forma manual la división de datos para una importación y usar la división automática en otra. Los datos siempre se vuelven a equilibrar con respecto a la división manual después de cada importación y eliminación de archivos.

Requisitos de los datos

Los datos de tu entrenamiento deben cumplir con los siguientes requisitos:

  • Si permites que AutoML Translation divida tus datos de forma automática, debes enviar al menos 1,000 pares de oraciones para entrenar un modelo personalizado.
  • Si divides los datos de forma manual, debes proporcionar al menos tres pares de oraciones para el conjunto TRAIN y debes tener al menos 100 pares de oraciones para los conjuntos VALIDATION y TEST.
  • No puedes proporcionar más de 10,000 pares de oraciones cada uno para el conjunto VALIDATION o el conjunto TEST.
  • El conjunto de datos no puede superar el máximo de 15 millones de pares de oraciones.

Recomendaciones de datos

Las siguientes recomendaciones pueden ayudarte a aumentar la calidad de tu conjunto de datos de entrenamiento:

  • Usa al menos 5,000 pares de oraciones en TRAIN, 500 pares de oraciones en VALIDATION y 500 pares de oraciones en TEST. Dicho esto, usa más datos si es posible. Tener más datos en el conjunto TRAIN ayuda a que el modelo aprenda patrones, y tener más datos en los conjuntos VALIDATION y TEST ayuda a verificar que el modelo se pueda generalizar a una variedad más amplia. de diferentes situaciones en tu dominio.
  • Las oraciones deben tener aproximadamente 200 palabras o menos. AutoML Translation podría descartar pares de oraciones más grandes. Para obtener más información, consulta Problemas de importación.
  • Soluciona problemas comunes de datos. Si deseas obtener más información, consulta la sección “Limpia los datos desordenados” en la guía para principiantes sobre la preparación de datos.

Valores separados por tabulaciones (.tsv)

AutoML Translation admite archivos separados por tabulaciones, en los que cada fila tiene este formato:

  • Source sentence tabulación Translated sentence

Por ejemplo:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Todo el texto en un archivo .tsv debe ser texto sin formato. Si el texto incluye etiquetas HTML o cualquier otro lenguaje de marcado, AutoML Translation trata el lenguaje de marcado como texto sin formato.

Los datos de origen separados por tabulaciones no incluyen códigos de idioma para identificar los idiomas fuente y objetivo. Identificas los códigos de idioma fuente y objetivo cuando describes el modelo que vas a entrenar. AutoML Translation interpreta el primer segmento como el idioma de origen y el segundo como el idioma objetivo. En el ejemplo anterior, el idioma de origen es el inglés, y el idioma objetivo es el alemán.

Intercambio de memorias de traducción (.tmx)

El intercambio de memoria de traducción (TMX) es un formato XML estándar para proporcionar oraciones de traducción fuente y objetivo. AutoML Translation admite archivos de entrada en un formato basado en la versión 1.4 de TMX. En este ejemplo, se ilustra la estructura necesaria:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

El elemento <header> de un archivo .tmx bien formado debe identificar el idioma de origen mediante el atributo srclang, y cada elemento <tuv> debe identificar el idioma del texto contenido con el atributo xml:lang.

Todos los elementos <tu> deben contener un par de elementos <tuv> con los mismos idiomas de origen y objetivo. Si un elemento <tu> contiene más de dos elementos <tuv>, AutoML Translation procesa solo el primer <tuv> que coincide con el idioma de origen y el primero que coincide con el idioma objetivo, mientras ignora el resto. Si un elemento <tu> no tiene un par coincidente de elementos <tuv>, AutoML Translation omite el elemento <tu> no válido.

AutoML Translation quita las etiquetas de lenguaje de marcado que rodean a un elemento <seg> antes de procesarlo. Si un elemento <tuv> contiene más de un elemento <seg>, AutoML Translation concatena su texto en un solo elemento con un espacio entre ellos.

Si el archivo contiene etiquetas XML distintas de las que se muestran arriba, AutoML Translation las ignora.

Si el archivo no se ajusta a los formatos XML y TMX adecuados, por ejemplo, si falta una etiqueta final o un elemento <tmx>, AutoML Translation cancela su procesamiento. AutoML Translation también cancela el procesamiento si omite más de 1,024 elementos <tu> no válidos.

Valores separados por comas (.csv)

Para subir pares de oraciones con la API de AutoML, crea un archivo de valores separados por comas (.csv) que identifique los archivos .tsv y .tmx que se usarán, y que también pueda indicar qué pares usar para entrenamiento, validación y prueba. El archivo .csv puede tener cualquier nombre de archivo, debe estar codificado en UTF-8 y debe terminar con una extensión .csv. El archivo tiene una fila para cada archivo .tsv o .tmx que estás subiendo, con dos columnas en cada fila:

  • A qué conjunto asignar los pares de oraciones en este archivo. Este campo es opcional y puede ser uno de estos valores:

    • ENTRENAMIENTO
    • VALIDACIÓN
    • PRUEBA
    • SIN ASIGNAR

      Si un conjunto de datos se especifica como SIN ASIGNAR, AutoML Translation lo divide automáticamente para garantizar que haya suficiente contenido de entrenamiento, validación y prueba.

  • La ruta de acceso completa a un documento .tsv o .tmx que contiene pares de oraciones.

Por ejemplo, puedes tener el siguiente contenido en tu archivo .csv:

TRAIN,gs://my-project-vcm/csv/en-fr-train.tsv
VALIDATION,gs://my-project-vcm/csv/en-fr-validation.tsv
TEST,gs://my-project-vcm/csv/en-fr-test.tsv