O serviço de avaliação de IA generativa oferece as seguintes métricas de avaliação de tarefas de tradução:
MetricX e COMET são métricas pontuais baseadas em modelos que foram treinadas para tarefas de tradução. Você pode avaliar a qualidade e a acurácia dos resultados do modelo de tradução para seu conteúdo, sejam eles saídas de modelos NMT, TranslationLLM ou Gemini.
Você também pode usar o Gemini como um modelo de avaliação para analisar a fluência, a coerência, a verbosidade e a qualidade do texto do seu modelo em combinação com MetricX, COMET ou BLEU.
A MetricX é uma métrica baseada em erros desenvolvida pelo Google que prevê uma pontuação de ponto flutuante entre 0 e 25, representando a qualidade de uma tradução. A MetricX está disponível como um método baseado em referência e sem referência (QE). Ao usar essa métrica, uma pontuação menor é melhor, porque significa que há menos erros.
O COMET usa uma abordagem de regressão baseada em referência que fornece pontuações de 0 a 1, em que 1 significa uma tradução perfeita.
O BLEU (Bilingual Evaluation Understudy) é uma métrica baseada em computação. A pontuação BLEU indica o nível de similaridade entre o texto candidato e o de referência. Um valor de pontuação BLEU mais próximo de um indica que uma tradução está mais próxima do texto de referência.
As pontuações BLEU não são recomendadas para comparação entre corpora e idiomas diferentes. Por exemplo, uma pontuação BLEU de 50 de inglês para alemão não é comparável a uma pontuação BLEU de 50 de japonês para inglês. Muitos especialistas em tradução mudaram para abordagens de métricas baseadas em modelos, que têm maior correlação com as classificações humanas e são mais granulares na identificação de cenários de erro.
Para saber como executar avaliações de modelos de tradução, consulte Avaliar um modelo de tradução.