Criar um modelo personalizado de tradução

Nesta página, mostramos como treinar e usar um modelo personalizado de tradução do AutoML usando o Console do Google Cloud. O exemplo a seguir treina um modelo personalizado de tradução de inglês para espanhol usando pares de frases orientados por tecnologia de localização de software.

Antes de começar

Acesse a página AutoML Translation e selecione seu projeto na lista suspensa. Você precisa ter, pelo menos, o acesso de papéis/editor do projeto. A documentação do AutoML mostra como configurar um projeto e conceder as permissões necessárias.

Criar um conjunto de dados de tradução e importar pares de frases

  1. Faça o download do arquivo que contém os dados de amostra para treinar o modelo e extrair o arquivo en-es.tsv.

  2. Acesse a página do console do AutoML Translation.

  3. Selecione o projeto em que você ativou o AutoML Translation.

    Página de conjuntos de dados com um conjunto de dados

  4. Clique no botão Criar conjunto de dados.

  5. Na página Criar conjunto de dados, insira o nome dele e selecione os idiomas de origem e de destino.

    Ao selecionar o idioma Inglês em Traduzir de, os idiomas disponíveis em Traduzir para são exibidos. Selecione Espanhol.

  6. Clique em Criar

  7. Na guia Importar do conjunto de dados, faça o seguinte:

    Importar guia para my_dataset

    • Selecione Fazer upload de arquivos do computador, clique em Selecionar arquivos e escolha o arquivo en-es.tsv que você baixou anteriormente.
    • Ao escolher arquivos locais, você precisa especificar o caminho do Cloud Storage em que os arquivos enviados serão armazenados. A região do bucket do Cloud Storage precisa ser us-central1.
  8. Clique em Continuar.

    Você retornará para a página Conjuntos de dados e verá uma animação de andamento enquanto os documentos estão sendo importados. Após o upload bem-sucedido do conjunto de dados, você receberá uma mensagem no endereço de e-mail usado para se inscrever no programa.

  9. Revise o conjunto de dados.

    Após a importação bem-sucedida dos dados, selecione o conjunto de dados na página de listagem de conjuntos de dados (ou clique no link na notificação por e-mail) para ver os detalhes dele. O nome do conjunto de dados selecionado aparece na barra de título, e a página relaciona os pares de frases e o cenário de processamento em que ele será usado (TREINAMENTO, VALIDAÇÃO, TESTE).

Treinar um modelo de tradução do AutoML

Para começar a treinar seu modelo personalizado, clique na guia Treinar logo abaixo da barra de título e, em seguida, no botão Iniciar treinamento.

Guia "Treinar" do conjunto de dados "my_dataset"

Esse processo pode levar várias horas para ser concluído. Após o treinamento bem-sucedido do modelo, você receberá uma mensagem no endereço de e-mail usado para se inscrever no programa.

Quando você receber a notificação de que o treinamento foi concluído, abra a mensagem de e-mail e clique no link para acessar o Console do Google Cloud. A página Treinar mostra métricas de alto nível para o modelo, particularmente a pontuação BLEU. A pontuação BLEU (Bilingual Evaluation Understudy) indica como o texto candidato é parecido com os textos de referência, com valores mais próximos ao que representa textos mais similares.

Guia "Treinar" do "my_dataset" mostrando a avaliação do modelo

Usar o modelo de tradução do AutoML

Clique na guia Prever logo abaixo da barra de título ou no link Testar e usar abaixo das informações do modelo. Digite algum texto para tradução e clique no botão Traduzir. Você pode comparar os resultados do seu modelo personalizado com o modelo NMT do Google.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Para evitar cobranças desnecessárias do Google Cloud, use o console do Google Cloud para excluir o projeto se ele não for mais necessário.

A seguir