Esta página foi traduzida pela API Cloud Translation.

Avaliar modelos de tradução

O serviço de avaliação de IA generativa oferece as seguintes métricas de avaliação de tarefas de tradução:

MetricX
COMET (link em inglês)
BLEU

MetricX e COMET são métricas pontuais baseadas em modelos que foram treinadas para tarefas de tradução. Você pode avaliar a qualidade e a acurácia dos resultados do modelo de tradução para seu conteúdo, sejam eles saídas de modelos NMT, TranslationLLM ou Gemini.

Você também pode usar o Gemini como um modelo de avaliação para analisar a fluência, a coerência, a verbosidade e a qualidade do texto do seu modelo em combinação com MetricX, COMET ou BLEU.

A MetricX é uma métrica baseada em erros desenvolvida pelo Google que prevê uma pontuação de ponto flutuante entre 0 e 25, representando a qualidade de uma tradução. A MetricX está disponível como um método baseado em referência e sem referência (QE). Ao usar essa métrica, uma pontuação menor é melhor, porque significa que há menos erros.
O COMET usa uma abordagem de regressão baseada em referência que fornece pontuações de 0 a 1, em que 1 significa uma tradução perfeita.
O BLEU (Bilingual Evaluation Understudy) é uma métrica baseada em computação. A pontuação BLEU indica o nível de similaridade entre o texto candidato e o de referência. Um valor de pontuação BLEU mais próximo de um indica que uma tradução está mais próxima do texto de referência.

As pontuações BLEU não são recomendadas para comparação entre corpora e idiomas diferentes. Por exemplo, uma pontuação BLEU de 50 de inglês para alemão não é comparável a uma pontuação BLEU de 50 de japonês para inglês. Muitos especialistas em tradução mudaram para abordagens de métricas baseadas em modelos, que têm maior correlação com as classificações humanas e são mais granulares na identificação de cenários de erro.

Para saber como executar avaliações de modelos de tradução, consulte Avaliar um modelo de tradução.

Avaliar modelos de tradução Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Avaliar modelos de tradução