Criar um modelo personalizado de tradução

Treine e use um modelo de tradução personalizado com o console do Google Cloud. O exemplo a seguir usa o AutoML Translation para treinar um modelo de tradução do inglês para o espanhol com um conjunto de dados que contém pares de segmentos orientados por tecnologia de localização de software.

Antes de começar

Antes de começar a usar o AutoML Translation, seu projeto precisa ter a API Cloud Translation ativada, e você precisa ter as permissões concedidas pelos seguintes papéis:

  • Papel de Leitor para ver os recursos no projeto
  • Papel de editor da API Cloud Translation para criar e gerenciar conjuntos de dados e modelos
  • Papel de Administrador do Storage para fazer upload dos dados de treinamento para um bucket do Cloud Storage

Criar um conjunto de dados de tradução e importar pares de segmentos

  1. Faça o download do arquivo que contém os dados de amostra para treinar o modelo e extraia os arquivos.

    Para este tutorial, você usará o arquivo TSV de inglês para espanhol.

  2. Acesse o console do AutoML Translation.

    Acessar a página "Tradução"

  3. No painel de navegação, clique em Conjuntos de dados para acessar a página Conjuntos de dados.

  4. Clique em Criar conjunto de dados.

  5. Na caixa de diálogo Criar conjunto de dados, especifique os detalhes do conjunto:

    1. Insira tutorial_dataset como o nome do conjunto de dados.
    2. Selecione Inglês (EN) como o idioma de origem na lista suspensa.
    3. Selecione Espanhol (ES) como seu idioma de destino.
    4. Clique em Criar.
  6. Depois que o conjunto de dados for criado, clique no nome dele para ver os detalhes.

  7. Acesse a guia Importar e faça upload do conjunto de dados en-es.tsv para o Cloud Storage:

    1. Selecione Fazer upload de arquivos do computador.
    2. Clique em Selecionar arquivos e escolha o arquivo en-es.tsv que você já transferiu por download e extraiu.
    3. Clique em Procurar para selecionar ou criar um novo bucket do Cloud Storage em que o TSV esteja armazenado. A região do bucket precisa ser us-central1.
  8. Clique em Continuar.

    O AutoML Translation divide automaticamente seus dados em conjuntos de treinamento, validação e teste. É possível ver essas divisões e os pares de frases importados na guia Frases do conjunto de dados.

Treinar um modelo

  1. Acesse o console do AutoML Translation.

    Acessar a página "Tradução"

  2. No painel de navegação, acesse a página Conjuntos de dados.

  3. Clique no conjunto de dados tutorial_dataset.

  4. Acesse a guia Treinar.

  5. Clique em Iniciar treinamento para abrir o painel Treinar novo modelo.

  6. Insira tutorial_model como o nome do modelo.

  7. Clique em Iniciar treinamento.

Esse processo pode levar várias horas para ser concluído.

Avalie o modelo

Verifique se o modelo se compara ao modelo padrão de NMT do Google, que se baseia em pares de segmentos do conjunto de teste.

  1. Acesse o console do AutoML Translation.

    Acessar a página "Tradução"

  2. No painel de navegação, acesse a página Modelos.

  3. Clique no modelo tutorial_model.

  4. Clique na guia Avaliar.

Na seção Avaliações anteriores, o Cloud Translation mostra a pontuação BLEU do seu modelo em comparação com o modelo NMT do Google. A pontuação BLEU (Bilingual Evaluation Understudy) indica como o texto candidato é parecido com os textos de referência. Valores mais próximos de 100 representam textos mais semelhantes.

Usar o modelo de tradução

No console do Google Cloud, é possível usar seu modelo personalizado para traduzir textos.

  1. Acesse o console do AutoML Translation.

    Acessar a página "Tradução"

  2. No painel de navegação, acesse a página Modelos.

  3. Clique no modelo tutorial_model.

  4. Clique na guia Prever.

  5. Na caixa de texto Inglês, insira o texto a ser traduzido e clique em Traduzir.

    É possível comparar os resultados do seu modelo personalizado com o modelo NMT do Google.

Limpar

Para evitar cobranças desnecessárias do Google Cloud, exclua o modelo, o conjunto de dados e o arquivo en-es.tsv. Também é possível usar o console do Google Cloud para excluir seu projeto se você não precisar dele.

A seguir