Criar um modelo personalizado de tradução
Treine e use um modelo de tradução personalizado com o console do Google Cloud. O exemplo a seguir usa o AutoML Translation para treinar um modelo de tradução do inglês para o espanhol com um conjunto de dados que contém pares de segmentos orientados por tecnologia de localização de software.
Antes de começar
Antes de começar a usar o AutoML Translation, seu projeto precisa ter a API Cloud Translation ativada, e você precisa ter as permissões concedidas pelos seguintes papéis:
- Papel de Leitor para ver os recursos no projeto
- Papel de editor da API Cloud Translation para criar e gerenciar conjuntos de dados e modelos
- Papel de Administrador do Storage para fazer upload dos dados de treinamento para um bucket do Cloud Storage
Criar um conjunto de dados de tradução e importar pares de segmentos
Faça o download do arquivo que contém os dados de amostra para treinar o modelo e extraia os arquivos.
Para este tutorial, você usará o arquivo TSV de inglês para espanhol.
Acesse o console do AutoML Translation.
No painel de navegação, clique em Conjuntos de dados para acessar a página Conjuntos de dados.
Clique em Criar conjunto de dados.
Na caixa de diálogo Criar conjunto de dados, especifique os detalhes do conjunto:
- Insira
tutorial_dataset
como o nome do conjunto de dados. - Selecione Inglês (EN) como o idioma de origem na lista suspensa.
- Selecione Espanhol (ES) como seu idioma de destino.
- Clique em Criar.
- Insira
Depois que o conjunto de dados for criado, clique no nome dele para ver os detalhes.
Acesse a guia Importar e faça upload do conjunto de dados
en-es.tsv
para o Cloud Storage:- Selecione Fazer upload de arquivos do computador.
- Clique em Selecionar arquivos e escolha o arquivo
en-es.tsv
que você já transferiu por download e extraiu. - Clique em Procurar para selecionar ou criar um novo bucket do Cloud Storage
em que o TSV esteja armazenado. A região do bucket precisa ser
us-central1
.
Clique em Continuar.
O AutoML Translation divide automaticamente seus dados em conjuntos de treinamento, validação e teste. É possível ver essas divisões e os pares de frases importados na guia Frases do conjunto de dados.
Treinar um modelo
Acesse o console do AutoML Translation.
No painel de navegação, acesse a página Conjuntos de dados.
Clique no conjunto de dados tutorial_dataset.
Acesse a guia Treinar.
Clique em Iniciar treinamento para abrir o painel Treinar novo modelo.
Insira
tutorial_model
como o nome do modelo.Clique em Iniciar treinamento.
Esse processo pode levar várias horas para ser concluído.
Avalie o modelo
Verifique se o modelo se compara ao modelo padrão de NMT do Google, que se baseia em pares de segmentos do conjunto de teste.
Acesse o console do AutoML Translation.
No painel de navegação, acesse a página Modelos.
Clique no modelo tutorial_model.
Clique na guia Avaliar.
Na seção Avaliações anteriores, o Cloud Translation mostra a pontuação BLEU do seu modelo em comparação com o modelo NMT do Google. A pontuação BLEU (Bilingual Evaluation Understudy) indica como o texto candidato é parecido com os textos de referência. Valores mais próximos de 100 representam textos mais semelhantes.
Usar o modelo de tradução
No console do Google Cloud, é possível usar seu modelo personalizado para traduzir textos.
Acesse o console do AutoML Translation.
No painel de navegação, acesse a página Modelos.
Clique no modelo tutorial_model.
Clique na guia Prever.
Na caixa de texto Inglês, insira o texto a ser traduzido e clique em Traduzir.
É possível comparar os resultados do seu modelo personalizado com o modelo NMT do Google.
Limpar
Para evitar cobranças desnecessárias do Google Cloud, exclua o modelo,
o conjunto de dados e o arquivo en-es.tsv
. Também é possível usar o
console do Google Cloud
para excluir seu projeto se você não precisar dele.
A seguir
- Para saber mais sobre modelos personalizados, consulte o Guia para iniciantes.
- Para criar seu próprio conjunto de dados e modelo personalizado, consulte Preparar dados de treinamento para ver instruções sobre como preparar os dados.