O serviço de avaliação de IA generativa oferece as seguintes métricas de avaliação de tarefas de tradução:
MetricX e COMET são métricas baseadas em modelos pontuais que foram treinadas para tarefas de tradução. É possível avaliar a qualidade e a precisão dos resultados do modelo de tradução do seu conteúdo, seja como saídas de modelos NMT, TranslationLLM ou Gemini.
Você também pode usar o Gemini como um modelo de avaliação para avaliar a fluência, a coerência, a verbosidade e a qualidade do texto do seu modelo em combinação com MetricX, COMET ou BLEU.
A MetricX é uma métrica baseada em erros desenvolvida pelo Google que prevê uma pontuação de ponto flutuante entre 0 e 25, representando a qualidade de uma tradução. O MetricX está disponível como um método com referência e sem referência (QE). Quando você usa essa métrica, uma pontuação menor é melhor, porque significa que há menos erros.
O COMET usa uma abordagem de regressão baseada em referência que fornece pontuações variando de 0 a 1, em que 1 significa uma tradução perfeita.
O BLEU (assistente de avaliação bilíngue) é uma métrica baseada em computação. A pontuação BLEU indica como o texto candidato é parecido com o texto de referência. Um valor de pontuação BLEU mais próximo indica que uma tradução está mais próxima do texto de referência.
As pontuações BLEU não são recomendadas para comparação entre corpora e idiomas diferentes. Por exemplo, uma pontuação BLEU de 50 do inglês para o alemão não é comparável a uma pontuação BLEU de 50 do japonês para o inglês. Muitos especialistas em tradução mudaram para abordagens de métricas baseadas em modelos, que têm maior correlação com as classificações humanas e são mais detalhadas na identificação de cenários de erro.
Para saber como executar avaliações de modelos de tradução, consulte Avaliar um modelo de tradução.