Esta página foi traduzida pela API Cloud Translation.

Prepare os dados de preparação

O Cloud Translation prepara modelos personalizados através da utilização de pares correspondentes de segmentos nos idiomas de origem e de destino. Trata cada par de segmentos como um item de preparação independente, sem assumir qualquer correlação entre pares separados.

Os pares de segmentos usados para formar o seu modelo personalizado têm de estar no formato de valores separados por tabulações (.tsv) ou Translation Memory eXchange (.tmx). Para mais informações, consulte o artigo Prepare traduções de exemplo.

Os pares de segmentos são sempre removidos de duplicados em todos os pares importados. Um par de segmentos é um duplicado de outro quando o respetivo segmento de origem corresponde a outro segmento de origem. O Cloud Translation não permite importar ficheiros com o mesmo conteúdo.

Divisão de dados

O AutoML Translation usa os pares de segmentos que fornece para diferentes fins enquanto cria o seu modelo personalizado:

Preparar: pares de segmentos para preparar o modelo. Atribua a maioria dos seus dados a este objetivo.
Validação: segmente os pares para validar os resultados que o modelo devolve durante a preparação.
Teste: segmente pares para gerar as métricas de avaliação finais do seu modelo. Indica o possível desempenho do modelo na produção.

Pode controlar os pares de segmentos que o AutoML Translation usa para cada finalidade carregando ficheiros separados para os conjuntos de preparação, validação e testes. Se não especificar explicitamente que ficheiros usar para estes três fins, o AutoML Translation divide automaticamente os pares de segmentos em três conjuntos. O AutoML Translation usa aproximadamente 80% dos seus dados para preparação, 10% para validação e 10% para testes. O AutoML Translation atribui aleatoriamente os seus pares de segmentos aos três conjuntos. Pode ter um máximo de 10 000 pares de segmentos para os conjuntos de validação e de testes. Após 10 000 pares, os pares de segmentos são enviados para o conjunto de preparação.

Se fizer várias importações de dados para o mesmo conjunto de dados, pode especificar manualmente a divisão de dados para uma importação e usar a divisão automática para outra. Os dados são sempre reequilibrados relativamente à sua divisão manual após cada importação e eliminação de ficheiros.

Requisitos de dados

Os dados de preparação têm de estar em conformidade com os seguintes requisitos:

Se permitir que o AutoML Translation divida automaticamente os seus dados, tem de enviar, pelo menos, 1000 pares de segmentos para preparar um modelo personalizado.
Se dividir manualmente os dados, tem de fornecer, pelo menos, três pares de segmentos para o conjunto TRAIN e ter, pelo menos, 100 pares de segmentos cada para os conjuntos VALIDATION e TEST.
Tem de fornecer, pelo menos, três pares de segmentos para o conjunto TRAIN e ter, pelo menos, 100 pares de segmentos para os conjuntos VALIDATION e TEST.
Não pode fornecer mais de 10 000 pares de segmentos para cada conjunto VALIDATION e TEST.
O seu conjunto de dados não pode exceder o máximo de 15 milhões de pares de segmentos.

Recomendações de dados

As seguintes recomendações podem ajudar a aumentar a qualidade do seu modelo:

Use,pelo menos, 5000 pares de segmentos para TRAIN, 500 pares de segmentos para VALIDATION e 500 pares de segmentos para TEST. Dito isto, use mais dados se possível. Ter mais dados para o conjunto TRAIN ajuda o modelo a aprender padrões. Ter mais dados para os conjuntos VALIDATION e TEST ajuda a verificar se o modelo pode ser generalizado para uma maior variedade de cenários no seu domínio.
Mantenha os segmentos com cerca de 200 palavras ou menos. O AutoML Translation pode ignorar pares de segmentos maiores do que isso. Para mais informações, consulte o artigo Problemas de importação.
Corrija problemas comuns nos dados de origem, conforme descrito na parte "Limpe dados desorganizados" da secção de preparação de dados da vista geral.

O que se segue?

Crie um conjunto de dados e importe os seus dados.