Visão geral das traduções personalizadas

O modelo padrão de tradução automática neural (NMT, na sigla em inglês) do Google abrange uma ampla variedade de idiomas e funciona bem para textos de uso geral. No entanto, nos casos em que você estiver traduzindo um texto específico do domínio ou que diferencie o estilo, as traduções personalizadas podem ajudar você a receber traduções mais relevantes.

As traduções personalizadas exigem que você forneça seus próprios exemplos de tradução. Em seguida, o Cloud Translation pode gerar resultados que seguem de perto o estilo, o tom e o vocabulário dos seus exemplos.

O Cloud Translation oferece duas soluções para solicitar traduções personalizadas: o AutoML Translation para treinamento de modelos personalizados ou tradução adaptativa para aproveitar os modelos de linguagem grandes (LLMs) do Google. Cada recurso tem os próprios requisitos de dados, idiomas compatíveis e preços.

AutoML Translation

Com o AutoML Translation, você importa seus dados para treinar modelos personalizados que você tem e mantém. Depois de criar um modelo personalizado, é possível solicitar traduções que usam seu modelo em vez do modelo NMT padrão. Em comparação com a tradução adaptativa, os modelos personalizados funcionam bem para textos específicos de domínio, em que a maior prioridade é utilizar a terminologia correta. Também é necessário fornecer conjuntos de dados maiores para o treinamento de modelos.

Vocês são cobrados com base no tempo de treinamento do modelo e no número de caracteres de entrada enviados para traduções.

Tradução adaptável

As traduções adaptáveis usam LLMs com pequenos conjuntos de dados para fornecer traduções de alta qualidade, geralmente no mesmo nível que os modelos personalizados do AutoML Translation. Você não treina nem mantém nenhum modelo. Em comparação com os modelos personalizados, a tradução adaptativa funciona bem para receber respostas semelhantes em estilo, tom e voz à sua entrada.

Para tradução adaptável, a cobrança é feita com base no número de caracteres de entrada e saída.

Preparar traduções de exemplos

Prepare traduções de exemplos como pares de segmentos, que consistem em uma frase em um idioma de origem e uma frase correspondente traduzida no idioma de destino. Salve esses pares de segmentos em um arquivo de valores separados por tabulação (TSV) ou em um arquivo Translation Memory eXchange (TMX).

Escolha exemplos que representem o domínio linguístico do conteúdo que você planeja traduzir. Para mais orientações, consulte a seção Preparação de dados no guia para iniciantes do AutoML Translation.

TSV

Para arquivos separados por tabulação, cada linha tem este formato:

  • Source segment tabulação Translated segment

Não inclua uma linha de cabeçalho com códigos de idioma para identificar os idiomas de origem e de destino. Você especifica essas linguagens ao criar um conjunto de dados. O exemplo abaixo inclui pares de segmentos de traduções do inglês para o alemão:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Todo o texto em um arquivo .TSV precisa ser simples. Se o texto incluir tags HTML ou outra marcação, o Cloud Translation considerará a marcação como texto simples.

TMX

TMX é um formato XML padrão para fornecer segmentos de tradução de origem e de destino. O Cloud Translation é compatível com arquivos de entrada em um formato baseado no TMX versão 1.4. O exemplo a seguir ilustra as etapas necessárias:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

O elemento <header> de um arquivo TMX bem formado precisa identificar o idioma de origem usando o atributo srclang, e cada elemento <tuv> precisa identificar o idioma do texto contido usando o atributo xml:lang.

Todos os elementos <tu> precisam conter um par de elementos <tuv> com os mesmos idiomas de origem e de destino. Se um elemento <tu> contiver mais de dois elementos <tuv>, o Cloud Translation processará apenas o primeiro <tuv> correspondente ao idioma de origem e o primeiro correspondente ao idioma de destino, ignorando o restante. Se um elemento <tu> não tiver um par correspondente de elementos <tuv>, o Cloud Translation pulará o elemento inválido <tu>.

O Cloud Translation remove as tags de marcação de um elemento <seg> antes de processá-lo. Se um elemento <tuv> contiver mais de um elemento <seg>, o Cloud Translation concatenará o texto dele em um único elemento com um espaço entre eles.

Se o arquivo contiver tags XML diferentes das mostradas anteriormente, o Cloud Translation as ignorará.

Se o arquivo não estiver em conformidade com o formato XML e TMX adequado, por exemplo, se estiver faltando uma tag de fechamento ou um elemento <tmx>, o Cloud Translation cancelará o processamento dele. O Cloud Translation também cancelará o processamento se ignorar mais de 1.024 elementos <tu> inválidos.

Os pares mínimo e máximo de segmentos numéricos obrigatórios e permitidos para cada recurso são diferentes. Para mais informações, consulte a preparação de dados do AutoML Translation ou os requisitos de dados de tradução adaptáveis.

A seguir