Vista geral das traduções personalizadas
O modelo de tradução automática neural (TAN) da Google predefinido abrange uma vasta gama de idiomas e funciona bem para texto de uso geral. No entanto, nos casos em que está a traduzir texto específico do domínio ou sensível ao estilo, as traduções personalizadas podem ajudar a obter traduções mais relevantes.
As traduções personalizadas requerem que forneça os seus próprios exemplos de traduções. Em seguida, o Cloud Translation pode gerar resultados que seguem de perto o estilo, o tom e o vocabulário dos seus exemplos.
O Cloud Translation oferece duas soluções para pedir traduções personalizadas: o AutoML Translation para preparar modelos personalizados ou a tradução adaptativa para tirar partido dos modelos de linguagem (conteúdo extenso) (MDIs/CEs) da Google. Cada funcionalidade tem os seus próprios requisitos de dados, conjunto de idiomas suportados e preços.
AutoML Translation
Com o AutoML Translation, importa os seus dados para preparar modelos personalizados que são da sua propriedade e manutenção. Depois de criar um modelo personalizado, pode pedir traduções que usem o seu modelo em vez do modelo de NMT predefinido. Em comparação com a tradução adaptativa, os modelos personalizados funcionam bem para texto específico do domínio em que a obtenção da terminologia correta é a sua principal prioridade. Também tem de fornecer conjuntos de dados maiores para a preparação de modelos.
A cobrança é feita com base no tempo de preparação do modelo e no número de carateres de entrada que envia para traduções.
Tradução adaptável
As traduções adaptativas usam GMLs combinados com pequenos conjuntos de dados para oferecer traduções de alta qualidade, muitas vezes ao nível dos modelos personalizados do AutoML Translation. Não prepara nem mantém modelos. Em comparação com os modelos personalizados, a tradução adaptativa funciona bem para receber respostas com um estilo, um tom e uma voz semelhantes aos seus comandos.
Para a tradução adaptativa, é-lhe cobrado o número de carateres de entrada e saída.
Prepare exemplos de traduções
Prepare traduções de exemplo como pares de segmentos, que consistem numa frase num idioma de origem e numa frase correspondente traduzida no idioma de destino. Guarde estes pares de segmentos num ficheiro de valores separados por tabulações (TSV) ou num ficheiro de troca de memória de tradução (TMX).
Escolha exemplos que representem o domínio linguístico do conteúdo que planeia traduzir. Para obter orientações adicionais, consulte a secção Preparação de dados no guia para principiantes do AutoML Translation.
TSV
Para ficheiros separados por tabulações, cada linha tem o seguinte formato:
Source segment
separadorTranslated segment
Não inclua uma linha de cabeçalho com códigos de idioma para identificar os idiomas de origem e destino. Especifica estes idiomas quando cria um conjunto de dados. O exemplo seguinte inclui pares de segmentos para traduções de inglês para alemão:
It's a beautiful day.\tEs ist ein schöner Tag. Tomorrow it will rain.\tMorgen wird es regnen.
Todo o conteúdo num ficheiro TSV tem de ser texto simples. Se o texto incluir etiquetas HTML ou outra marcação, o Cloud Translation trata a marcação como texto simples.
TMX
O TMX é um formato XML padrão para fornecer segmentos de tradução de origem e destino. O Cloud Translation suporta ficheiros de entrada num formato baseado na versão 1.4 do TMX. O exemplo seguinte ilustra a estrutura necessária:
<?xml version='1.0' encoding='utf-8'?> <!DOCTYPE tmx SYSTEM "tmx14.dtd"> <tmx version="1.4"> <header segtype="sentence" o-tmf="UTF-8" adminlang="en" srclang="en" datatype="PlainText"/> <body> <tu> <tuv xml:lang="en"> <seg>It's a beautiful day.</seg> </tuv> <tuv xml:lang="de"> <seg>Es ist ein schöner Tag.</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Tomorrow it will rain.</seg> </tuv> <tuv xml:lang="de"> <seg>Morgen wird es regnen.</seg> </tuv> </tu> </body> </tmx>
O elemento <header>
de um ficheiro TMX bem formado tem de identificar o idioma de origem através do atributo srclang
, e cada elemento <tuv>
tem de identificar o idioma do texto contido através do atributo xml:lang
.
Todos os elementos <tu>
têm de conter um par de elementos <tuv>
com os mesmos idiomas de origem e de destino. Se um elemento <tu>
contiver mais de dois elementos <tuv>
, o Cloud Translation processa apenas o primeiro elemento <tuv>
que corresponda ao idioma de origem e o primeiro que corresponda ao idioma de destino, ignorando os restantes. Se um elemento <tu>
não tiver um par correspondente de elementos <tuv>
, o Cloud Translation ignora o elemento <tu>
inválido.
O Cloud Translation remove as etiquetas de marcação de um elemento <seg>
antes de o processar. Se um elemento
<tuv>
contiver mais do que um elemento <seg>
, o Cloud Translation concatena o respetivo texto num único elemento
com um espaço entre eles.
Se o ficheiro contiver etiquetas XML diferentes das apresentadas anteriormente, o Cloud Translation ignora-as.
Se o ficheiro não estiver em conformidade com o formato XML e TMX adequado, por exemplo, se lhe faltar uma etiqueta final ou um elemento <tmx>
, o Cloud Translation interrompe o respetivo processamento. O Cloud Translation também anula o processamento se ignorar mais de 1024 elementos <tu>
inválidos.
O número mínimo necessário e o número máximo permitido de pares de segmentos para cada funcionalidade é diferente. Para mais informações, consulte a preparação de dados do AutoML Translation ou os requisitos de dados de tradução adaptativa.
O que se segue?
- Para mais informações sobre cada funcionalidade, consulte a vista geral da Tradução com AutoML ou a tradução adaptativa.
- Para saber que idiomas são suportados, consulte o artigo Idiomas suportados.
- Para ver detalhes dos preços, consulte os preços do Cloud Translation.