Prepare os dados de preparação
O Cloud Translation prepara modelos personalizados através da utilização de pares correspondentes de segmentos nos idiomas de origem e de destino. Trata cada par de segmentos como um item de preparação independente, sem assumir qualquer correlação entre pares separados.
Os pares de segmentos usados para formar o seu modelo personalizado têm de estar no formato de valores separados por tabulações (.tsv
) ou Translation Memory eXchange (.tmx
).
Para mais informações, consulte o artigo Prepare traduções de exemplo.
Os pares de segmentos são sempre removidos de duplicados em todos os pares importados. Um par de segmentos é um duplicado de outro quando o respetivo segmento de origem corresponde a outro segmento de origem. O Cloud Translation não permite importar ficheiros com o mesmo conteúdo.
Divisão de dados
O AutoML Translation usa os pares de segmentos que fornece para diferentes fins enquanto cria o seu modelo personalizado:
- Preparar: pares de segmentos para preparar o modelo. Atribua a maioria dos seus dados a este objetivo.
- Validação: segmente os pares para validar os resultados que o modelo devolve durante a preparação.
- Teste: segmente pares para gerar as métricas de avaliação finais do seu modelo. Indica o possível desempenho do modelo na produção.
Pode controlar os pares de segmentos que o AutoML Translation usa para cada finalidade carregando ficheiros separados para os conjuntos de preparação, validação e testes. Se não especificar explicitamente que ficheiros usar para estes três fins, o AutoML Translation divide automaticamente os pares de segmentos em três conjuntos. O AutoML Translation usa aproximadamente 80% dos seus dados para preparação, 10% para validação e 10% para testes. O AutoML Translation atribui aleatoriamente os seus pares de segmentos aos três conjuntos. Pode ter um máximo de 10 000 pares de segmentos para os conjuntos de validação e de testes. Após 10 000 pares, os pares de segmentos são enviados para o conjunto de preparação.
Se fizer várias importações de dados para o mesmo conjunto de dados, pode especificar manualmente a divisão de dados para uma importação e usar a divisão automática para outra. Os dados são sempre reequilibrados relativamente à sua divisão manual após cada importação e eliminação de ficheiros.
Requisitos de dados
Os dados de preparação têm de estar em conformidade com os seguintes requisitos:
- Se permitir que o AutoML Translation divida automaticamente os seus dados, tem de enviar, pelo menos, 1000 pares de segmentos para preparar um modelo personalizado.
- Se dividir manualmente os dados, tem de fornecer, pelo menos, três pares de segmentos para o conjunto
TRAIN
e ter, pelo menos, 100 pares de segmentos cada para os conjuntosVALIDATION
eTEST
. - Tem de fornecer, pelo menos, três pares de segmentos para o conjunto
TRAIN
e ter, pelo menos, 100 pares de segmentos para os conjuntosVALIDATION
eTEST
. - Não pode fornecer mais de 10 000 pares de segmentos para cada conjunto
VALIDATION
eTEST
. - O seu conjunto de dados não pode exceder o máximo de 15 milhões de pares de segmentos.
Recomendações de dados
As seguintes recomendações podem ajudar a aumentar a qualidade do seu modelo:
- Use,pelo menos, 5000 pares de segmentos para
TRAIN
, 500 pares de segmentos paraVALIDATION
e 500 pares de segmentos paraTEST
. Dito isto, use mais dados se possível. Ter mais dados para o conjuntoTRAIN
ajuda o modelo a aprender padrões. Ter mais dados para os conjuntosVALIDATION
eTEST
ajuda a verificar se o modelo pode ser generalizado para uma maior variedade de cenários no seu domínio. - Mantenha os segmentos com cerca de 200 palavras ou menos. O AutoML Translation pode ignorar pares de segmentos maiores do que isso. Para mais informações, consulte o artigo Problemas de importação.
- Corrija problemas comuns nos dados de origem, conforme descrito na parte "Limpe dados desorganizados" da secção de preparação de dados da vista geral.