평가 방법 및 측정항목 결정

이 페이지에서는 현재 평가 측정항목과 각 측정항목을 사용하는 방법을 간략하게 설명합니다.

점별과 쌍별 비교

적용할 측정항목을 결정하기 전에 평가 목표를 확인해야 합니다. 여기에는 평가 패러다임에 설명된 대로 점별 평가 또는 쌍별 평가를 수행할지 여부를 결정하는 것이 포함됩니다.

패러다임 사용 시기
점별 프로덕션에서 모델이 작동하는 방식 이해하기:
  • 단일 모델의 장단점을 살펴봅니다.
  • 조정 시 집중할 동작을 식별합니다.
  • 모델의 기준 성능을 가져옵니다.
쌍별 프로덕션에 반영할 모델 결정:
  • 모델 유형 중에서 선택합니다. 예를 들어 Gemini-Pro와 Claude 3를 비교합니다.
  • 다양한 프롬프트 중에서 선택합니다.
  • 조정으로 기준 모델이 개선되었는지 확인합니다.

태스크 및 측정항목

태스크와 측정항목을 식별하려면 다음 안내를 따르세요.

  1. 쌍별 평가 또는 점별 평가를 수행할지 여부를 결정합니다.
  2. 평가 태스크와 계산할 측정항목을 식별하는 데 도움이 되도록 모델의 역할과 응답의 어떤 측면이 더 중요한지 고려합니다.

다음 질문을 지침으로 사용하여 결정하세요.

  • 작업을 식별합니다.
    • 모델이 어떤 역할을 하나요?
    • 모델이 질문에 답하나요?
    • 모델이 질문에 답한다면 질의 응답 측정항목 제품을 고려해 보세요.
  • 측정항목을 파악합니다.
    • 응답의 안전성이나 유창성이 걱정되나요? 응답과 유창성에 대한 측정항목이 모두 있습니다.

측정항목 번들

측정항목 번들은 일반적으로 연관된 측정항목을 결합하여 평가 프로세스를 간소화합니다. 조합은 다음과 같은 측정기준을 따릅니다.

  • 평가 태스크: 요약, 질의 응답, 텍스트 생성
  • 평가 관점: 유사성, 안전, 품질
  • 입력 일관성: 동일한 번들의 모든 측정항목은 동일한 데이터 세트 입력을 사용합니다.
  • 평가 패러다임: 점별과 쌍별 비교

측정항목 번들은 온라인 평가 SDK에서 직접 사용하여 맞춤설정된 평가 워크플로 개발 시 유용한 정보를 얻을 수 있습니다.

다음 테이블에 사용 가능한 측정항목 번들에 대한 세부정보가 나와 있습니다.

측정항목 번들 이름 측정항목 이름 사용자 입력
text_generation_similarity exact match
bleu
rouge
예측
참조
tool_call_quality tool_call_valid
tool_name_match
tool_parameter_key_match
tool_parameter_kv_match
예측
참조
text_generation_quality coherence
fluency
예측
text_generation_instruction_following fulfillment 예측
참조
text_generation_safety safety 예측
text_generation_factuality groundedness 예측
컨텍스트
summarization_pointwise_reference_free summarization_quality
summarization_helpfulness
summarization_verbosity
예측
컨텍스트
요청 사항
summary_pairwise_reference_free pairwise_summarization_quality 예측
컨텍스트
요청 사항
qa_pointwise_reference_free question_answering_quality
question_answering_relevance
question_answering_helpfulness
예측
컨텍스트
요청 사항
qa_pointwise_reference_based question_answering_correctness 예측
컨텍스트
요청 사항
참조
qa_pairwise_reference_free pairwise_question_answering_quality 예측
컨텍스트
요청 사항

측정항목 결과 이해

측정항목에 따라 다른 출력 결과가 생성됩니다. 따라서 평가를 해석할 수 있도록 결과의 의미와 결과가 생성되는 방법을 설명합니다.

점수 및 쌍별 선택

선택한 평가 패러다임에 따라 점별 평가 결과에 score가, 쌍별 평가 결과에 pairwise_choice가 표시됩니다.

점별 평가의 경우 평가 결과의 점수는 평가 대상 모델 출력의 성능 또는 품질을 수치로 표현한 것입니다. 점수 척도는 측정항목별로 다릅니다. 바이너리(0과 1), 리커트 척도(1~5, -2~2), 부동 소수점(0.0~1.0)을 사용합니다. 각 측정항목의 점수 값에 대한 자세한 설명은 태스크 및 측정항목 섹션을 참조하세요.

쌍별 측정항목에서 평가 결과의 pairwise_choice는 후보 또는 기준 예측이 다음과 같은 가능한 값을 사용할 때 더 나은지 여부를 나타내는 열거형입니다.

  • BASELINE: 기준 예측이 더 우수함
  • CANDIDATE: 후보 예측이 더 우수함

평가 파이프라인 서비스와 쌍별 평가를 실행할 때 'A'와 'B'는 기준 및 후보 예측이 아닌 출력 선택 옵션입니다.

설명 및 신뢰도 점수

설명과 신뢰도 점수는 모델 기반 평가의 기능입니다.

측정항목 정의 유형 작동 방식
설명 자동 평가 도구가 선택한 이유입니다. 문자열 Google에서는 연쇄 사고 추론을 사용하여 AutoRater가 각 판정의 근거를 설명하도록 안내합니다. AutoRater가 추론하도록 강제하는 것은 평가 정확도를 향상시키는 것으로 나타납니다.
신뢰도 점수 0~1 사이의 점수로, AutoRater가 판정에 대해 얼마나 확신했는지를 나타냅니다. 점수가 1에 가까울수록 신뢰도가 높습니다. 부동 소수점 수 모델 기반 평가는 자체 일관성 디코딩 전략을 활용하여 평가 결과를 결정하므로 평가 정확성이 향상됩니다. 따라서 단일 평가 입력의 경우 AutoRater를 여러 번 샘플링하여 합의 결과를 반환합니다. 이렇게 샘플링된 결과의 변화는 AutoRater의 판정에 대한 신뢰도를 측정한 것입니다.

예시

이 예시를 통해 결과를 읽고 이해하는 방법을 연습할 수 있습니다.

예 1

첫 번째 예에서는 summarizationQuality에 대한 점별 평가 인스턴스를 평가하는 것을 고려하세요. summarization_quality 측정항목의 점별 평가 점수는 4(1~5의 척도)입니다. 이는 예측이 좋은 요약이라는 의미입니다. 또한 평가 결과의 explanation은 자동 평가 도구에서 예측 점수가 더 높거나 낮은 점수가 아닌 4점을 받을 자격이 있다고 판단하는 이유를 보여줍니다. 평가 결과의 confidence 점수는 자동 평가 도구가 점수를 얼마나 확신하는지 나타내며, 신뢰도 점수 0.8(0.0~1.0 척도)은 자동 평가 도구에서 요약이 4점을 받을 가치가 있다고 확신한다는 의미입니다.

데이터 세트

  • instruction: "5세 정도의 어린이가 이해할 수 있도록 텍스트를 요약해 줘."
  • context: "소셜 미디어 플랫폼, 콘텐츠 검토 정책에 대한 반발에 직면\n한 유명 소셜 미디어 플랫폼은 사용자와 콘텐츠 크리에이터가 콘텐츠 검토 정책에 불만을 표시하면서 논란에 휩싸였습니다. 편향된 검열, 일관성 없는 시행, 특정 관점을 억압했다는 주장은 플랫폼이 표현의 자유를 제한하고 있다고 주장하는 사용자들 사이에서 분노를 불러일으켰습니다. 반면 플랫폼은 정책이 안전하고 포용적인 온라인 환경을 유지하도록 설계되었다고 주장합니다. 이 논란은 공론을 형성하는 데 있어 소셜 미디어의 역할과 온라인 콘텐츠를 선별하는 플랫폼의 책임에 대해 더 광범위한 질문을 제기합니다.
  • prediction: '많은 사람들이 게시할 수 있는 내용이 공정하지 않다고 생각하기 때문에 웹사이트에 대한 불만을 표합니다. 어떤 사람들은 웹사이트에서 자신이 원하는 것을 말하지 못하게 한다고 말합니다. 하지만 웹사이트에는 모든 사용자를 안전하게 보호하기 위해 노력한다고 나와 있습니다. 이로 인해 사람들은 온라인에서 말할 수 있는 내용을 웹사이트가 통제해야 하는지 의문을 가집니다."

결과

  • score: 4,
  • explanation: 응답 요약은 5세 정도의 어린이가 이해할 수 있도록 컨텍스트를 요약하라는 지시를 따릅니다. 이는 컨텍스트에 기초를 두고 있으며 요약 시 중요한 세부정보를 제공합니다. 그러나 응답에 사용된 언어는 약간 장황합니다.
  • confidence: 0.8

예 2

두 번째 예는 pairwiseQuestionAnsweringQuality에 대한 쌍별 병렬 비교 평가입니다. pairwiseChoice 결과는 자동 평가 도구가 context의 배경 정보가 포함된 instruction에 따른 질문에 답변하는 기본 응답인 '프랑스는 국가입니다'보다 '프랑스는 서유럽에 위치한 국가입니다'라는 후보 응답을 선호한다는 것을 나타냅니다. 점별 결과와 마찬가지로 후보 응답이 기본 응답보다 나은 이유(이 경우 후보 응답이 더 유용함)와 자동 평가 도구가 이 선택에 대해 얼마나 확신하는지(여기서 신뢰도 1은 자동 평가 도구가 이 선택을 최대한 확신한다는 의미임) 설명하기 위한 설명 및 신뢰도 점수가 제공됩니다.

데이터 세트

  • prediction: '프랑스는 서유럽에 위치한 국가입니다.',
  • baseline_prediction: '프랑스는 국가입니다.',
  • instruction: '프랑스는 어디에 있나요?',
  • context: "프랑스는 서유럽에 위치한 국가입니다. 프랑스는 벨기에, 룩셈부르크, 독일, 스위스, 이탈리아, 모나코, 스페인, 안도라와 국경을 접하고 있습니다. 프랑스의 해안선은 영국 해협, 북해, 대서양, 지중해를 따라 뻗어 있습니다. 유구한 역사, 에펠탑과 같은 상징적인 명소, 맛있는 음식으로 잘 알려진 프랑스는 유럽은 물론 전 세계의 문화와 경제에서 중요한 역할을 합니다.',

결과

  • pairwiseChoice: CANDIDATE,
  • explanation: BASELINE 응답은 근거가 있지만 질문에 충실히 답변하지는 않습니다. 그러나 CANDIDATE 응답은 정확하며 프랑스의 위치에 대한 유용한 세부정보를 제공합니다.
  • confidence: 1

다음 단계