Preparar dados de treinamento

O Cloud Translation treina modelos personalizados usando pares correspondentes de segmentos nos idiomas de origem e de destino. Ele considera cada par de segmentos um item de treinamento independente, sem pressupor uma correlação entre os pares.

Os pares de segmentos usados para treinar o modelo personalizado precisam estar nos valores separados por tabulação (.tsv) ou Memória de tradução eXchange (.tmx). Para saber mais, consulte Preparar traduções de exemplos.

Os pares de segmentos são sempre duplicados em todos os pares importados. Um par de segmentos é uma cópia de outro quando o segmento de origem corresponde a outro segmento de origem. O Cloud Translation não permite importar arquivos com o mesmo conteúdo.

Divisão de dados

O AutoML Translation usa os pares de segmentos fornecidos para diferentes finalidades ao criar o modelo personalizado:

  • Treinamento: segmente pares para treinar o modelo. Aloque a maioria dos seus dados para essa finalidade.
  • Validação: pares de segmentos para validar os resultados retornados pelo modelo durante o treinamento.
  • Teste: segmente pares para gerar as métricas de avaliação final do modelo. Indica o desempenho do modelo na produção.

É possível controlar quais pares de segmentos o AutoML Translation usa para cada finalidade, fazendo upload de arquivos separados para os conjuntos de treinamento, validação e teste. Se você não especificar de maneira clara quais arquivos serão usados para essas três finalidades, o AutoML Translation dividirá automaticamente os pares de segmentos em três conjuntos. O AutoML Translation usa aproximadamente 80% dos seus dados para treinamento, 10% para validação e 10% para teste. O AutoML Translation atribui aleatoriamente seus pares de segmentos nos três conjuntos. É possível ter no máximo 10.000 pares de segmentos para cada conjunto de conjuntos de validação e teste. Depois de 10.000 pares, os pares de segmentos são enviados para o conjunto de treinamento.

Se você fizer várias importações de dados no mesmo conjunto de dados, poderá especificar manualmente a divisão de dados para uma importação e usar a divisão automática para outra. Os dados são sempre re-equilibrados em relação à divisão manual após cada exclusão de importação e de arquivo.

Requisitos de dados

Os dados de treinamento precisam estar em conformidade com os seguintes requisitos:

  • Se você permitir que o AutoML Translation divida seus dados automaticamente, envie pelo menos 1.000 pares de segmentos para treinar um modelo personalizado.
  • Se você dividir manualmente seus dados, forneça pelo menos três pares de segmentos para o conjunto TRAIN e precisará ter pelo menos 100 pares de segmentos cada para os conjuntos VALIDATION e TEST.
  • Você precisa fornecer pelo menos três pares de segmentos para o conjunto TRAIN e ter pelo menos 100 pares de segmentos para cada conjunto VALIDATION e TEST.
  • Não é possível fornecer mais de 10.000 pares de segmentos cada para os conjuntos de VALIDATION e TEST.
  • O conjunto de dados não pode exceder o máximo de 15 milhões de pares de segmentos.

Recomendações de dados

As recomendações a seguir podem ajudar a aumentar a qualidade do modelo:

  • Use pelo menos 5.000 pares de segmentos para TRAIN, 500 pares de segmentos para VALIDATION e 500 pares de segmentos para TEST. Se possível, use mais dados. Ter mais dados para o conjunto TRAIN ajuda o modelo a aprender padrões. Ter mais dados para os conjuntos VALIDATION e TEST ajuda a verificar se o modelo pode ser generalizado para uma variedade maior. de cenários no seu domínio.
  • Mantenha segmentos com, no máximo, 200 palavras. O AutoML Translation pode descartar pares de segmentos maiores que isso. Para mais informações, consulte Problemas de importação.
  • Corrija problemas comuns de dados de origem, conforme descrito na seção "Limpar dados confusos" na seção Preparação de dados da visão geral.

A seguir