Prepare os dados de preparação

O Cloud Translation prepara modelos personalizados através da utilização de pares correspondentes de segmentos nos idiomas de origem e de destino. Trata cada par de segmentos como um item de preparação independente, sem assumir qualquer correlação entre pares separados.

Os pares de segmentos usados para formar o seu modelo personalizado têm de estar no formato de valores separados por tabulações (.tsv) ou Translation Memory eXchange (.tmx). Para mais informações, consulte o artigo Prepare traduções de exemplo.

Os pares de segmentos são sempre removidos de duplicados em todos os pares importados. Um par de segmentos é um duplicado de outro quando o respetivo segmento de origem corresponde a outro segmento de origem. O Cloud Translation não permite importar ficheiros com o mesmo conteúdo.

Divisão de dados

O AutoML Translation usa os pares de segmentos que fornece para diferentes fins enquanto cria o seu modelo personalizado:

  • Preparar: pares de segmentos para preparar o modelo. Atribua a maioria dos seus dados a este objetivo.
  • Validação: segmente os pares para validar os resultados que o modelo devolve durante a preparação.
  • Teste: segmente pares para gerar as métricas de avaliação finais do seu modelo. Indica o possível desempenho do modelo na produção.

Pode controlar os pares de segmentos que o AutoML Translation usa para cada finalidade carregando ficheiros separados para os conjuntos de preparação, validação e testes. Se não especificar explicitamente que ficheiros usar para estes três fins, o AutoML Translation divide automaticamente os pares de segmentos em três conjuntos. O AutoML Translation usa aproximadamente 80% dos seus dados para preparação, 10% para validação e 10% para testes. O AutoML Translation atribui aleatoriamente os seus pares de segmentos aos três conjuntos. Pode ter um máximo de 10 000 pares de segmentos para os conjuntos de validação e de testes. Após 10 000 pares, os pares de segmentos são enviados para o conjunto de preparação.

Se fizer várias importações de dados para o mesmo conjunto de dados, pode especificar manualmente a divisão de dados para uma importação e usar a divisão automática para outra. Os dados são sempre reequilibrados relativamente à sua divisão manual após cada importação e eliminação de ficheiros.

Requisitos de dados

Os dados de preparação têm de estar em conformidade com os seguintes requisitos:

  • Se permitir que o AutoML Translation divida automaticamente os seus dados, tem de enviar, pelo menos, 1000 pares de segmentos para preparar um modelo personalizado.
  • Se dividir manualmente os dados, tem de fornecer, pelo menos, três pares de segmentos para o conjunto TRAIN e ter, pelo menos, 100 pares de segmentos cada para os conjuntos VALIDATION e TEST.
  • Tem de fornecer, pelo menos, três pares de segmentos para o conjunto TRAIN e ter, pelo menos, 100 pares de segmentos para os conjuntos VALIDATION e TEST.
  • Não pode fornecer mais de 10 000 pares de segmentos para cada conjunto VALIDATION e TEST.
  • O seu conjunto de dados não pode exceder o máximo de 15 milhões de pares de segmentos.

Recomendações de dados

As seguintes recomendações podem ajudar a aumentar a qualidade do seu modelo:

  • Use,pelo menos, 5000 pares de segmentos para TRAIN, 500 pares de segmentos para VALIDATION e 500 pares de segmentos para TEST. Dito isto, use mais dados se possível. Ter mais dados para o conjunto TRAIN ajuda o modelo a aprender padrões. Ter mais dados para os conjuntos VALIDATION e TEST ajuda a verificar se o modelo pode ser generalizado para uma maior variedade de cenários no seu domínio.
  • Mantenha os segmentos com cerca de 200 palavras ou menos. O AutoML Translation pode ignorar pares de segmentos maiores do que isso. Para mais informações, consulte o artigo Problemas de importação.
  • Corrija problemas comuns nos dados de origem, conforme descrito na parte "Limpe dados desorganizados" da secção de preparação de dados da vista geral.

O que se segue?