Preparar dados de treinamento
O Cloud Translation treina modelos personalizados usando pares correspondentes de segmentos nos idiomas de origem e de destino. Ele considera cada par de segmentos um item de treinamento independente, sem pressupor uma correlação entre os pares.
Os pares de segmentos usados para treinar o modelo personalizado precisam estar
nos valores separados por tabulação (.tsv
) ou Memória de tradução
eXchange (.tmx
).
Para saber mais, consulte Preparar traduções de exemplos.
Os pares de segmentos são sempre duplicados em todos os pares importados. Um par de segmentos é uma cópia de outro quando o segmento de origem corresponde a outro segmento de origem. O Cloud Translation não permite importar arquivos com o mesmo conteúdo.
Divisão de dados
O AutoML Translation usa os pares de segmentos fornecidos para diferentes finalidades ao criar o modelo personalizado:
- Treinamento: segmente pares para treinar o modelo. Aloque a maioria dos seus dados para essa finalidade.
- Validação: pares de segmentos para validar os resultados retornados pelo modelo durante o treinamento.
- Teste: segmente pares para gerar as métricas de avaliação final do modelo. Indica o desempenho do modelo na produção.
É possível controlar quais pares de segmentos o AutoML Translation usa para cada finalidade, fazendo upload de arquivos separados para os conjuntos de treinamento, validação e teste. Se você não especificar de maneira clara quais arquivos serão usados para essas três finalidades, o AutoML Translation dividirá automaticamente os pares de segmentos em três conjuntos. O AutoML Translation usa aproximadamente 80% dos seus dados para treinamento, 10% para validação e 10% para teste. O AutoML Translation atribui aleatoriamente seus pares de segmentos nos três conjuntos. É possível ter no máximo 10.000 pares de segmentos para cada conjunto de conjuntos de validação e teste. Depois de 10.000 pares, os pares de segmentos são enviados para o conjunto de treinamento.
Se você fizer várias importações de dados no mesmo conjunto de dados, poderá especificar manualmente a divisão de dados para uma importação e usar a divisão automática para outra. Os dados são sempre re-equilibrados em relação à divisão manual após cada exclusão de importação e de arquivo.
Requisitos de dados
Os dados de treinamento precisam estar em conformidade com os seguintes requisitos:
- Se você permitir que o AutoML Translation divida seus dados automaticamente, envie pelo menos 1.000 pares de segmentos para treinar um modelo personalizado.
- Se você dividir manualmente seus dados, forneça pelo menos três pares
de segmentos para o conjunto
TRAIN
e precisará ter pelo menos 100 pares de segmentos cada para os conjuntosVALIDATION
eTEST
. - Você precisa fornecer pelo menos três pares de segmentos para o conjunto
TRAIN
e ter pelo menos 100 pares de segmentos para cada conjuntoVALIDATION
eTEST
. - Não é possível fornecer mais de 10.000 pares de segmentos cada para os conjuntos de
VALIDATION
eTEST
. - O conjunto de dados não pode exceder o máximo de 15 milhões de pares de segmentos.
Recomendações de dados
As recomendações a seguir podem ajudar a aumentar a qualidade do modelo:
- Use pelo menos 5.000 pares de segmentos para
TRAIN
, 500 pares de segmentos paraVALIDATION
e 500 pares de segmentos paraTEST
. Se possível, use mais dados. Ter mais dados para o conjuntoTRAIN
ajuda o modelo a aprender padrões. Ter mais dados para os conjuntosVALIDATION
eTEST
ajuda a verificar se o modelo pode ser generalizado para uma variedade maior. de cenários no seu domínio. - Mantenha segmentos com, no máximo, 200 palavras. O AutoML Translation pode descartar pares de segmentos maiores que isso. Para mais informações, consulte Problemas de importação.
- Corrija problemas comuns de dados de origem, conforme descrito na seção "Limpar dados confusos" na seção Preparação de dados da visão geral.