Información general sobre las traducciones personalizadas
El modelo predeterminado de traducción automática neuronal de Google (NMT) abarca una amplia gama de idiomas y funciona bien con textos de uso general. Sin embargo, en los casos en los que traduzcas texto específico de un dominio o que dependa del estilo, las traducciones personalizadas pueden ayudarte a obtener traducciones más relevantes.
Para las traducciones personalizadas, debes proporcionar tus propias traducciones de ejemplo. De esta forma, Cloud Translation puede generar resultados que se ajusten al estilo, el tono y el vocabulario de tus ejemplos.
Cloud Translation ofrece dos soluciones para solicitar traducciones personalizadas: AutoML Translation para entrenar modelos personalizados o la traducción adaptativa para aprovechar los modelos de lenguaje extenso (LLMs) de Google. Cada función tiene sus propios requisitos de datos, idiomas admitidos y precios.
AutoML Translation
Con AutoML Translation, puedes importar tus datos para entrenar modelos personalizados que te pertenezcan y que puedas mantener. Una vez que hayas creado un modelo personalizado, podrás solicitar traducciones que usen tu modelo en lugar del modelo NMT predeterminado. En comparación con la traducción adaptativa, los modelos personalizados funcionan bien con textos específicos de un dominio en los que la prioridad es usar la terminología correcta. También debes proporcionar conjuntos de datos más grandes para entrenar el modelo.
Se te cobra en función del tiempo de entrenamiento del modelo y del número de caracteres de entrada que envíes para traducir.
Traducción adaptable
Las traducciones adaptables usan LLMs combinados con conjuntos de datos pequeños para ofrecer traducciones de alta calidad, a menudo similares a las de los modelos personalizados de AutoML Translation. No entrenas ni mantienes ningún modelo. En comparación con los modelos personalizados, la traducción adaptativa es una buena opción para obtener respuestas con un estilo, un tono y una voz similares a los de tu entrada.
En el caso de la traducción adaptativa, se te cobra en función del número de caracteres de entrada y salida.
Preparar traducciones de ejemplo
Prepara traducciones de ejemplo como pares de segmentos, que constan de una frase en el idioma de origen y la frase correspondiente traducida al idioma de destino. Guarda estos pares de segmentos en un archivo de valores separados por tabulaciones (TSV) o en un archivo de intercambio de memorias de traducción (TMX).
Elige ejemplos que representen el ámbito lingüístico del contenido que quieras traducir. Para obtener más información, consulta la sección Preparación de datos de la guía de inicio de AutoML Translation.
TSV
En los archivos separados por tabulaciones, cada fila tiene el siguiente formato:
Source segment
pestañaTranslated segment
No incluyas una fila de encabezado con códigos de idioma para identificar los idiomas de origen y de destino. Estos idiomas se especifican al crear un conjunto de datos. El siguiente ejemplo incluye pares de segmentos para traducciones del inglés al alemán:
It's a beautiful day.\tEs ist ein schöner Tag. Tomorrow it will rain.\tMorgen wird es regnen.
Todo el contenido de un archivo TSV debe ser texto sin formato. Si el texto incluye etiquetas HTML u otro tipo de marcado, Cloud Translation las procesa como texto sin formato.
TMX
TMX es un formato XML estándar que ofrece segmentos de traducción con el texto de origen y destino. Cloud Translation admite archivos de entrada con un formato basado en la versión 1.4 de TMX. En el ejemplo siguiente se muestra la estructura necesaria:
<?xml version='1.0' encoding='utf-8'?> <!DOCTYPE tmx SYSTEM "tmx14.dtd"> <tmx version="1.4"> <header segtype="sentence" o-tmf="UTF-8" adminlang="en" srclang="en" datatype="PlainText"/> <body> <tu> <tuv xml:lang="en"> <seg>It's a beautiful day.</seg> </tuv> <tuv xml:lang="de"> <seg>Es ist ein schöner Tag.</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Tomorrow it will rain.</seg> </tuv> <tuv xml:lang="de"> <seg>Morgen wird es regnen.</seg> </tuv> </tu> </body> </tmx>
El elemento <header>
de un archivo TMX generado correctamente debe identificar el idioma de origen mediante el atributo srclang
, y cada elemento <tuv>
debe identificar el idioma del texto contenido mediante el atributo xml:lang
.
Todos los elementos <tu>
deben contener un par de elementos <tuv>
con el mismo idioma de origen y de destino. Si un elemento <tu>
contiene más de dos elementos <tuv>
, Cloud Translation procesa solo el primer elemento <tuv>
que coincida con el idioma de origen y el primero que coincida con el idioma de destino, e ignora los demás. Si un elemento <tu>
no contiene ningún par de elementos <tuv>
que coincida, Cloud Translation omite el elemento <tu>
no válido.
Cloud Translation quita las etiquetas de marcado que acompañan a los elementos <seg>
antes de procesarlos. Si un elemento <tuv>
contiene más de un elemento <seg>
, Cloud Translation concatena el texto en un único elemento e incluye un espacio entre ellos.
Si el archivo contiene etiquetas XML distintas a las que se han mencionado anteriormente, Cloud Translation las ignora.
Si los formatos XML o TMX del archivo no son correctos (por ejemplo, falta una etiqueta final o un elemento <tmx>
), Cloud Translation no lo procesa. Cloud Translation también aborta el procesamiento si se salta más de 1024 elementos <tu>
no válidos.
El número mínimo y máximo de pares de segmentos que se requieren o permiten para cada función es diferente. Para obtener más información, consulta la sección sobre la preparación de datos de AutoML Translation o los requisitos de los datos de traducción adaptativa.
Siguientes pasos
- Para obtener más información sobre cada función, consulta la descripción general de AutoML Translation o la traducción adaptativa.
- Para obtener información sobre los idiomas disponibles, consulta la sección Idiomas admitidos.
- Para obtener información sobre los precios, consulta la página Precios de Cloud Translation.