Avalie modelos
Após a preparação de um modelo, o AutoML Translation usa o seu TEST
para avaliar a qualidade e a precisão do novo modelo. O AutoML Translation
expressa a qualidade do modelo através da respetiva pontuação BLEU (Bilingual Evaluation Understudy), que indica a semelhança entre o texto candidato e o
texto de referência. Um valor de pontuação BLEU mais próximo de um indica que uma tradução está mais próxima do texto de referência.
Use estes dados para avaliar a prontidão do seu modelo. Para melhorar a qualidade do seu modelo, considere adicionar mais (e mais diversificados) pares de segmentos de preparação. Depois de ajustar o conjunto de dados, prepare um novo modelo com o conjunto de dados melhorado.
Tenha em atenção que as pontuações BLEU não são recomendadas para comparação entre diferentes corpora e idiomas. Por exemplo, uma pontuação BLEU de 50 de inglês para alemão não é comparável a uma pontuação BLEU de 50 de japonês para inglês. Muitos especialistas em tradução mudaram para abordagens de métricas baseadas em modelos, que têm uma correlação mais elevada com as classificações humanas e são mais detalhadas na identificação de cenários de erro.
O AutoML Translation só suporta pontuações BLEU. Para avaliar o seu modelo de tradução através de métricas baseadas em modelos, consulte o serviço de avaliação de IA gen no Vertex AI.
Obtenha a avaliação do modelo
Aceda à consola do AutoML Translation.
No menu de navegação, clique em Modelos para ver uma lista dos seus modelos.
Clique no modelo para avaliar.
Clique no separador Preparar para ver as métricas de avaliação do modelo, como a respetiva pontuação BLEU.
Teste as previsões do modelo
Ao usar a Google Cloud consola, compara os resultados da tradução do seu modelo personalizado com o modelo de TMN predefinido.
Aceda à consola do AutoML Translation.
No menu de navegação, clique em Modelos para ver uma lista dos seus modelos.
Clique no modelo para testar.
Clique no separador Prever.
Adicione texto de entrada na caixa de texto do idioma de origem.
Clique em Traduzir.
O AutoML Translation mostra os resultados da tradução para o modelo personalizado e o modelo de NMT.
Avalie e compare modelos através de um novo conjunto de testes
Na Google Cloud consola, pode reavaliar os modelos existentes usando um novo conjunto de dados de teste. Numa única avaliação, pode incluir até 5 modelos diferentes e, em seguida, comparar os respetivos resultados.
Carregue os dados de teste para o Cloud Storage como valores separados por tabulações (TSV) ou como um ficheiro Translation Memory eXchange (TMX).
O AutoML Translation avalia os seus modelos em relação ao conjunto de testes e, em seguida, gera pontuações de avaliação. Opcionalmente, pode guardar os resultados de cada modelo como um ficheiro TSV num contentor do Cloud Storage, em que cada linha tem o seguinte formato:
Source segment tab Model candidate translation tab Reference translation
Aceda à consola do AutoML Translation.
No menu de navegação, clique em Modelos para ver uma lista dos seus modelos.
Clique no modelo para avaliar.
Clique no separador Avaliar.
No separador Avaliar, clique em Nova avaliação.
Selecione os modelos que quer avaliar e comparar e, de seguida, clique em Seguinte.
O modelo atual tem de estar selecionado e a NMT da Google está selecionada por predefinição, mas pode desmarcá-la.
Especifique um nome para o Nome do conjunto de testes para ajudar a distingui-lo de outras avaliações e, em seguida, selecione o novo conjunto de testes no Cloud Storage.
Clicar em Seguinte.
Para exportar previsões, especifique uma pasta de destino do Cloud Storage.
Clique em Iniciar avaliação.
O AutoML Translation apresenta as classificações de avaliação num formato de tabela na consola após a avaliação estar concluída. Só pode executar uma avaliação de cada vez. Se especificou uma pasta para armazenar os resultados da previsão, o AutoML Translation escreve ficheiros TSV nessa localização com o ID do modelo associado, anexado ao nome do conjunto de testes.
Compreender a pontuação BLEU
BLEU (BiLingual Evaluation Understudy) é uma métrica para avaliar automaticamente o texto traduzido por máquinas. A pontuação BLEU é um número entre zero e um que mede a semelhança do texto traduzido automaticamente com um conjunto de traduções de referência de alta qualidade. Um valor de 0 significa que o resultado da tradução automática não tem sobreposição com a tradução de referência (o que indica uma qualidade inferior), enquanto um valor de 1 significa que existe uma sobreposição perfeita com as traduções de referência (o que indica uma qualidade superior).
O AutoML Translation expressa as pontuações BLEU como uma percentagem em vez de um decimal entre 0 e 1.
Interpretação
Como orientação geral, a seguinte interpretação das pontuações BLEU (expressas em percentagens em vez de decimais) pode ser útil.
Pontuação BLEU | Interpretação |
---|---|
< 10 | Quase inútil |
10 a 19 | É difícil perceber o essencial |
20 - 29 | A ideia principal é clara, mas tem erros gramaticais significativos |
30 - 40 | Traduções compreensíveis a boas |
40 - 50 | Traduções de alta qualidade |
50 - 60 | Traduções de qualidade muito alta, adequadas e fluentes |
> 60 | Qualidade frequentemente melhor do que a humana |
O seguinte gradiente de cores pode ser usado como uma interpretação geral da pontuação BLEU:
Os detalhes matemáticos
Matematicamente, a pontuação BLEU é definida como:
com
\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]
onde
- \(m_{cand}^i\hphantom{xi}\) é a contagem de i-gramas na correspondência candidata com a tradução de referência
- \(m_{ref}^i\hphantom{xxx}\) é a contagem de i-gram na tradução de referência
- \(w_t^i\hphantom{m_{max}}\) é o número total de i-gramas na tradução candidata
A fórmula é composta por duas partes: a penalização por brevidade e a sobreposição de n-gramas.
Penalização por brevidade
A penalização por brevidade penaliza as traduções geradas que são demasiado curtas em comparação com o comprimento de referência mais próximo com uma desvalorização exponencial. A penalização por brevidade compensa o facto de a pontuação BLEU não ter um termo de recolha.Sobreposição de n-gramas
A sobreposição de n-gramas contabiliza quantos unigramas, bigramas, trigramas e tetragramas (i=1,...,4) correspondem à respetiva contrapartida de n-gramas nas traduções de referência. Este termo funciona como uma métrica de precisão. Os unigramas têm em conta a adequação, enquanto os n-gramas mais longos têm em conta a fluidez da tradução. Para evitar a contagem excessiva, as contagens de n-gramas são cortadas para a contagem de n-gramas máxima que ocorre na referência (\(m_{ref}^n\)).
Exemplos
A calcular \(precision_1\)
Considere esta frase de referência e a tradução candidata:
Referência: the cat is on the mat
Candidato: the the the cat mat
O primeiro passo é contar as ocorrências de cada unigrama na referência e no candidato. Tenha em atenção que a métrica BLEU é sensível a maiúsculas e minúsculas.
Unigrama | \(m_{cand}^i\hphantom{xi}\) | \(m_{ref}^i\hphantom{xxx}\) | \(\min(m^i_{cand}, m^i_{ref})\) |
---|---|---|---|
the |
3 | 2 | 2 |
cat |
1 | 1 | 1 |
is |
0 | 1 | 0 |
on |
0 | 1 | 0 |
mat |
1 | 1 | 1 |
O número total de unigramas no candidato (\(w_t^1\)) é 5, pelo que \(precision_1\) = (2 + 1 + 1)/5 = 0,8.
Calcular a pontuação BLEU
Referência:
The NASA Opportunity rover is battling a massive dust storm on Mars .
Candidato 1:
The Opportunity rover is combating a big sandstorm on Mars .
Candidato 2:
A NASA rover is fighting a massive storm on Mars .
O exemplo acima consiste numa única referência e em duas traduções candidatas. As frases são divididas em tokens antes de calcular a pontuação BLEU, conforme representado acima; por exemplo, o ponto final é contabilizado como um token separado.
Para calcular a pontuação BLEU de cada tradução, calculamos as seguintes estatísticas.
- Precisões de N-gramas
A tabela seguinte contém as precisões de n-gramas para ambos os candidatos. - Brevity-Penalty
A penalização por brevidade é a mesma para o candidato 1 e o candidato 2, uma vez que ambas as frases têm 11 tokens. - Pontuação BLEU
Tenha em atenção que é necessário, pelo menos, um 4-grama correspondente para obter uma pontuação BLEU superior a 0. Uma vez que a tradução candidata 1 não tem nenhum 4-grama correspondente, tem uma pontuação BLEU de 0.
Métrica | Candidato 1 | Candidato 2 |
---|---|---|
\(precision_1\) (1 grama) | 8/11 | 11/9 |
\(precision_2\) (2 gramas) | 4/10 | 5/10 |
\(precision_3\) (3gram) | 2/9 | 2/9 |
\(precision_4\) (4 gramas) | 0/8 | 1/8 |
Brevity-Penalty | 0,83 | 0,83 |
Pontuação BLEU | 0,0 | 0,27 |
Propriedades
O BLEU é uma métrica baseada em corpus
A métrica BLEU tem um desempenho fraco quando usada para avaliar frases individuais. Por exemplo, ambas as frases de exemplo recebem pontuações BLEU muito baixas, apesar de captarem a maior parte do significado. Uma vez que as estatísticas de n-gramas para frases individuais são menos significativas, o BLEU é, por definição, uma métrica baseada em corpus. Ou seja, as estatísticas são acumuladas num corpus inteiro quando se calcula a pontuação. Tenha em atenção que a métrica BLEU definida acima não pode ser fatorizada para frases individuais.Nenhuma distinção entre palavras de conteúdo e palavras funcionais
A métrica BLEU não distingue entre palavras de conteúdo e palavras funcionais, ou seja, uma palavra funcional omitida, como "a", recebe a mesma penalização que se o nome "NASA" fosse substituído erroneamente por "ESA".Não é bom a captar o significado e a gramática de uma frase
A omissão de uma única palavra, como "não", pode alterar a polaridade de uma frase. Além disso, ter em conta apenas n-gramas com n≤4 ignora as dependências de longo alcance e, por isso, o BLEU impõe frequentemente apenas uma pequena penalização para frases não gramaticais.Normalização e tokenização
Antes de calcular a pontuação BLEU, as traduções de referência e candidatas são normalizadas e tokenizadas. A escolha dos passos de normalização e tokenização afeta significativamente a pontuação BLEU final.