번역 모델 평가

Gen AI 평가 서비스는 다음과 같은 번역 작업 평가 측정항목을 제공합니다.

MetricX 및 COMET는 번역 작업에 맞게 학습된 점별 모델 기반 측정항목입니다. NMT, TranslationLLM 또는 Gemini 모델의 출력 여부와 관계없이 콘텐츠의 번역 모델 결과의 품질과 정확성을 평가할 수 있습니다.

Gemini를 판사 모델로 사용하여 MetricX, COMET 또는 BLEU와 함께 모델의 유창성, 일관성, 상세성, 텍스트 품질을 평가할 수도 있습니다.

  • MetricX는 Google에서 개발한 오류 기반 측정항목으로, 번역의 품질을 나타내는 0~25 사이의 부동 소수점 점수를 예측합니다. MetricX는 참조 기반 및 참조 무료 (QE) 메서드로 모두 사용할 수 있습니다. 이 측정항목을 사용할 때는 점수가 낮을수록 오류가 적다는 의미이므로 점수가 낮을수록 좋습니다.

  • COMET는 0~1 사이의 점수를 제공하는 참조 기반 회귀 접근 방식을 사용합니다. 여기서 1은 완벽한 번역을 의미합니다.

  • BLEU (Bilingual Evaluation Understudy)는 계산 기반 측정항목입니다. BLEU 점수는 후보 텍스트가 참조 텍스트와 얼마나 비슷한지를 나타냅니다. BLEU 점수 값이 1에 가까울수록 번역이 참조 텍스트에 더 가깝다는 뜻입니다.

BLEU 점수는 서로 다른 말뭉치 및 언어 간에 비교하는 데는 권장되지 않습니다. 예를 들어 영어-독일어 BLEU 점수가 50이면 일본어-영어 BLEU 점수가 50이더라도 서로 비교할 수 없습니다. 많은 번역 전문가가 인간 평가와의 상관관계가 더 높고 오류 시나리오를 더 세부적으로 식별하는 모델 기반 측정항목 접근 방식으로 전환했습니다.

번역 모델 평가를 실행하는 방법은 번역 모델 평가를 참고하세요.