Descripción general de las traducciones personalizadas

El modelo predeterminado de traducción automática neuronal (NMT) de Google abarca una amplia variedad de idiomas y funciona bien para textos de uso general. Sin embargo, si traduces textos de ámbitos específicos o a los que se le debe prestar una mayor atención al estilo, las traducciones personalizadas pueden ayudarte a obtener resultados más relevantes.

Las traducciones personalizadas requieren que proporciones tus propias traducciones de ejemplo. Con estos ejemplos, Cloud Translation puede generar resultados que se adecúan al estilo, tono y vocabulario de tus ejemplos.

Cloud Translation ofrece dos soluciones para solicitar traducciones personalizadas: usar AutoML Translation para el entrenamiento de modelos personalizados o la traducción adaptable para aprovechar los modelos de lenguaje grandes (LLM) de Google. Cada función tiene sus propios requisitos de datos, un conjunto de idiomas admitidos y precios.

AutoML Translation

Con AutoML Translation, importas tus datos para entrenar modelos personalizados que posees y mantienes. Luego de compilar un modelo personalizado, puedes solicitar traducciones que usen tu modelo en lugar del modelo de NMT predeterminado. En comparación con la traducción adaptable, los modelos personalizados funcionan bien para textos de dominios específicos en los que una terminología correcta es la mayor prioridad de todas. También debes proporcionar conjuntos de datos más grandes para el entrenamiento de modelos.

Se te cobra por el tiempo de entrenamiento del modelo y la cantidad de caracteres de entrada que envías para las traducciones.

Traducción adaptable

Las traducciones adaptables usan LLM combinados con conjuntos de datos pequeños para proporcionar traducciones de alta calidad. A menudo, a la par de los modelos personalizados de AutoML Translation. No entrenas ni mantienes ningún modelo. En comparación con los modelos personalizados, la traducción adaptable funciona bien para obtener respuestas que tienen un estilo, tono y voz similares a tus entradas.

Para la traducción adaptable, se te cobra por la cantidad de caracteres de entrada y salida.

Prepara traducciones de ejemplo

Elige pares de segmentos para que sean las traducciones de ejemplo, las cuales consisten en una oración en un idioma de origen junto a su correspondiente traducción el idioma meta. Guarda estos pares de segmentos en un archivo de valores delimitado por tabulaciones (TSV) o de intercambio de memorias de traducción (TMX).

Elige ejemplos que representen el dominio lingüístico del contenido que piensas traducir. Para obtener orientación adicional, consulta la sección Preparación de datos en la guía para principiantes de AutoML Translation.

TSV

En los archivos delimitados por tabulaciones, cada fila tiene el siguiente formato:

  • Source segment tabulación Translated segment

No incluyas una fila de encabezado con códigos de idioma para identificar los idiomas fuente y meta. Debes especificar estos idiomas cuando creas un conjunto de datos. En el siguiente ejemplo, se incluyen pares de segmentos para las traducciones del inglés al alemán:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Todo el contenido de un archivo TSV debe ser texto sin formato. Si el texto incluye etiquetas HTML o cualquier otra marca, Cloud Translation trata lo marcado como texto sin formato.

TMX

TMX es un formato XML estándar para proporcionar segmentos de traducción fuente y meta. Cloud Translation admite archivos de entrada en un formato basado en la versión 1.4 de TMX. En el siguiente ejemplo, se ilustra la estructura necesaria:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

El elemento <header> de un archivo TMX con el formato correcto debe identificar el idioma de origen con el atributo srclang, y cada elemento <tuv> debe identificar el idioma del texto contenido con el atributo xml:lang.

Todos los elementos <tu> deben contener un par de elementos <tuv> con los mismos idiomas de origen y destino. Si un elemento <tu> contiene más de dos elementos <tuv>, Cloud Translation solo procesa el primer <tuv> que coincida con el idioma de origen y el primero que coincida con el de destino, mientras que ignora el resto. Si un elemento <tu> no tiene un par coincidente de elementos <tuv>, Cloud Translation omite el elemento <tu> no válido.

Cloud Translation quita las etiquetas de marca que rodean a un elemento <seg> antes de procesarlo. Si un elemento <tuv> contiene más de un elemento <seg>, Cloud Translation concatena su texto en un solo elemento con un espacio entre ellos.

Si el archivo contiene etiquetas XML que no son las mismas que se mostraron antes, Cloud Translation las ignora.

Si el archivo no se ajusta de forma correcta a los formatos XML y TMX (por ejemplo, si falta una etiqueta final o un elemento <tmx>), Cloud Translation anula su procesamiento. Cloud Translation también anula el procesamiento si omite más de 1,024 elementos <tu> no válidos.

Los pares de segmentos numéricos mínimos y máximos permitidos para cada atributo son diferentes. Para obtener más información, consulta la página sobre preparación de datos de AutoML Translation o requisitos de datos de traducción adaptables.

¿Qué sigue?