Gen AI 평가 서비스는 다음과 같은 번역 작업 평가 측정항목을 제공합니다.
MetricX 및 COMET는 번역 작업에 맞게 학습된 점별 모델 기반 측정항목입니다. NMT, TranslationLLM 또는 Gemini 모델의 출력 여부와 관계없이 콘텐츠의 번역 모델 결과의 품질과 정확성을 평가할 수 있습니다.
Gemini를 판사 모델로 사용하여 MetricX, COMET 또는 BLEU와 함께 모델의 유창성, 일관성, 상세성, 텍스트 품질을 평가할 수도 있습니다.
MetricX는 Google에서 개발한 오류 기반 측정항목으로, 번역의 품질을 나타내는 0~25 사이의 부동 소수점 점수를 예측합니다. MetricX는 참조 기반 및 참조 무료 (QE) 메서드로 모두 사용할 수 있습니다. 이 측정항목을 사용할 때는 점수가 낮을수록 오류가 적다는 의미이므로 점수가 낮을수록 좋습니다.
COMET는 0~1 사이의 점수를 제공하는 참조 기반 회귀 접근 방식을 사용합니다. 여기서 1은 완벽한 번역을 의미합니다.
BLEU (Bilingual Evaluation Understudy)는 계산 기반 측정항목입니다. BLEU 점수는 후보 텍스트가 참조 텍스트와 얼마나 비슷한지를 나타냅니다. BLEU 점수 값이 1에 가까울수록 번역이 참조 텍스트에 더 가깝다는 뜻입니다.
BLEU 점수는 서로 다른 말뭉치 및 언어 간에 비교하는 데는 권장되지 않습니다. 예를 들어 영어-독일어 BLEU 점수가 50이면 일본어-영어 BLEU 점수가 50이더라도 서로 비교할 수 없습니다. 많은 번역 전문가가 인간 평가와의 상관관계가 더 높고 오류 시나리오를 더 세부적으로 식별하는 모델 기반 측정항목 접근 방식으로 전환했습니다.
번역 모델 평가를 실행하는 방법은 번역 모델 평가를 참고하세요.