O serviço de avaliação de IA gen oferece as seguintes métricas de avaliação de tarefas de tradução:
A MetricX e a COMET são métricas baseadas em modelos pontuais que foram preparadas para tarefas de tradução. Pode avaliar a qualidade e a precisão dos resultados do modelo de tradução para o seu conteúdo, quer sejam resultados da NMT, do TranslationLLM ou dos modelos do Gemini.
Também pode usar o Gemini como um modelo de avaliação para avaliar a fluidez, a coerência, a verbosidade e a qualidade do texto do seu modelo em combinação com o MetricX, o COMET ou o BLEU.
A métricaX é uma métrica baseada em erros desenvolvida pela Google que prevê uma pontuação de vírgula flutuante entre 0 e 25 que representa a qualidade de uma tradução. A MetricX está disponível como um método baseado em referências e sem referências (QE). Quando usa esta métrica, uma pontuação mais baixa é melhor, porque significa que existem menos erros.
O COMET usa uma abordagem de regressão baseada em referências que fornece pontuações entre 0 e 1, em que 1 significa uma tradução perfeita.
O BLEU (Bilingual Evaluation Understudy) é uma métrica baseada em cálculos. A pontuação BLEU indica a semelhança entre o texto candidato e o texto de referência. Um valor de pontuação BLEU mais próximo de um indica que uma tradução está mais próxima do texto de referência.
Tenha em atenção que as pontuações BLEU não são recomendadas para comparação entre diferentes corpora e idiomas. Por exemplo, uma pontuação BLEU de 50 de inglês para alemão não é comparável a uma pontuação BLEU de 50 de japonês para inglês. Muitos especialistas em tradução mudaram para abordagens de métricas baseadas em modelos, que têm uma correlação mais elevada com as classificações humanas e são mais detalhadas na identificação de cenários de erro.
Para saber como executar avaliações para modelos de tradução, consulte o artigo Avalie um modelo de tradução.