관리 루브릭 기반 측정항목 세부정보

이 페이지에서는 Vertex AI SDK의 GenAI 클라이언트에서 사용할 수 있는 Gen AI Evaluation Service에서 제공하는 관리형 루브릭 기반 측정항목의 전체 목록을 제공합니다.

테스트 기반 평가에 관한 자세한 내용은 평가 측정항목 정의를 참고하세요.

개요

Gen AI Evaluation Service는 테스트 기반 평가 프레임워크에 대해 관리되는 루브릭 기반 측정항목 목록을 제공합니다.

  • 적응형 루브릭이 있는 측정항목의 경우 대부분 각 프롬프트의 루브릭 생성 워크플로와 루브릭 검증이 모두 포함됩니다. 필요한 경우 별도로 실행할 수 있습니다. 자세한 내용은 평가 실행을 참고하세요.

  • 정적 루브릭이 있는 측정항목의 경우 프롬프트별 루브릭이 생성되지 않습니다. 의도한 출력에 관한 자세한 내용은 측정항목 세부정보를 참고하세요.

관리 루브릭 기반 측정항목에는 버전 번호가 있습니다. 측정항목은 기본적으로 최신 버전을 사용하지만 필요한 경우 특정 버전으로 고정할 수 있습니다.

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

하위 호환성

측정항목 프롬프트 템플릿으로 제공되는 측정항목의 경우 동일한 접근 방식을 통해 Vertex AI SDK의 생성형 AI 클라이언트를 통해 포인트별 측정항목에 계속 액세스할 수 있습니다. Vertex AI SDK의 GenAI 클라이언트에서는 페어와이즈 측정항목이 지원되지 않지만 평가 실행을 참고하여 동일한 평가에서 두 모델을 비교하세요.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

관리형 측정항목 세부정보

이 섹션에는 유형, 필수 입력, 예상 출력과 같은 세부정보가 포함된 관리 측정항목이 나열되어 있습니다.

일반적인 품질

최신 버전 general_quality_v1
유형 적응형 기준표
설명 모델 응답의 전반적인 품질을 평가하는 포괄적인 적응형 루브릭 측정항목입니다. 프롬프트의 콘텐츠를 기반으로 다양한 기준을 자동으로 생성하고 평가합니다. 이 방법은 대부분의 평가에 권장되는 시작점입니다.
SDK에서 액세스하는 방법 types.RubricMetric.GENERAL_QUALITY
입력
  • prompt
  • response
  • (선택사항) rubric_groups
이미 생성된 기준표가 있는 경우 평가를 위해 직접 제공할 수 있습니다.
출력
  • score
  • rubrics 및 해당 verdicts
점수는 루브릭을 기반으로 한 대답의 통과율을 나타냅니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 6개의 호출

텍스트 품질

최신 버전 text_quality_v1
유형 적응형 기준표
설명 응답의 언어적 품질을 구체적으로 평가하는 타겟 적응형 루브릭 측정항목입니다. 유창성, 일관성, 문법과 같은 측면을 평가합니다.
SDK에서 액세스하는 방법 types.RubricMetric.TEXT_QUALITY
입력
  • prompt
  • response
  • (선택사항) rubric_groups
이미 생성된 기준표가 있는 경우 평가를 위해 직접 제공할 수 있습니다.
출력
  • score
  • rubrics 및 해당 verdicts
점수는 루브릭을 기반으로 한 대답의 통과율을 나타냅니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 6개의 호출

안내 준수성

최신 버전 instruction_following_v1
유형 적응형 기준표
설명 프롬프트에 제공된 특정 제약 조건과 요청 사항을 얼마나 잘 준수하는지 측정하는 타겟 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법 types.RubricMetric.INSTRUCTION_FOLLOWING
입력
  • prompt
  • response
  • (선택사항) rubric_groups
이미 생성된 기준표가 있는 경우 평가를 위해 직접 제공할 수 있습니다.
출력
  • score (통과율)
  • rubrics 및 해당 verdicts
점수는 루브릭을 기반으로 한 대답의 통과율을 나타냅니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 6개의 호출

그라운딩

최신 버전 grounding_v1
유형 정적 기준표
설명 사실성과 일관성을 확인하는 점수 기반 측정항목입니다. 모델의 대답이 컨텍스트를 기반으로 그라운딩되었는지 확인합니다.
SDK에서 액세스하는 방법 types.RubricMetric.GROUNDING
입력
  • prompt
  • response
  • context
출력
  • score
  • explanation
점수는 0-1 범위이며, 입력 프롬프트에 대한 supported 또는 no_rad (사실적 출처가 필요하지 않음, 인사말, 질문, 면책 조항 등)로 라벨이 지정된 요청의 비율을 나타냅니다.
설명에는 문장, 라벨, 추론, 맥락에서 발췌한 내용이 그룹화되어 있습니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 1개의 호출

안전

최신 버전 safety_v1
유형 정적 기준표
설명 모델의 대답이 다음 정책 중 하나 이상을 위반했는지 평가하는 점수 기반 측정항목입니다.
  • PII 및 인구통계 데이터
  • 증오심 표현
  • 위험한 콘텐츠
  • 괴롭힘
  • 선정적
SDK에서 액세스하는 방법 types.RubricMetric.SAFETY
입력
  • prompt
  • response
출력
  • score
  • explanation
점수의 경우 0는 안전하지 않고 1는 안전합니다.
설명 필드에는 위반된 정책이 포함됩니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 10개의 호출

멀티턴 일반 품질

최신 버전 multi_turn_general_quality_v1
유형 적응형 기준표
설명 멀티턴 대화의 맥락에서 모델 응답의 전반적인 품질을 평가하는 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법 types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
입력
  • prompt 멀티턴 대화
  • response
  • (선택사항) rubric_groups
이미 생성된 기준표가 있는 경우 평가를 위해 직접 제공할 수 있습니다.
출력
  • score
  • 루브릭 및 해당 확인 결과
점수는 루브릭을 기반으로 한 대답의 통과율을 나타냅니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 6개의 호출

멀티턴 텍스트 품질

최신 버전 multi_turn_text_quality_v1
유형 적응형 기준표
설명 멀티턴 대화의 맥락에서 모델 응답의 텍스트 품질을 평가하는 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법 types.RubricMetric.TEXT_QUALITY
입력
  • prompt 멀티턴 대화
  • response
  • (선택사항) rubric_groups
이미 생성된 기준표가 있는 경우 평가를 위해 직접 제공할 수 있습니다.
출력
  • score
  • rubrics 및 해당 verdicts
점수는 루브릭을 기반으로 한 대답의 통과율을 나타냅니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 6개의 호출

상담사 최종 응답 일치

최신 버전 final_response_match_v2
유형 정적 기준표
설명 제공된 참조 답변 (정답)과 비교하여 AI 에이전트의 최종 답변 품질을 평가하는 측정항목입니다.
SDK에서 액세스하는 방법 types.RubricMetric.FINAL_RESPONSE_MATCH
입력
  • prompt
  • response
  • reference
출력 점수
  • 1: 참조와 일치하는 유효한 대답
  • 0: 참조와 일치하지 않는 잘못된 응답입니다.
설명
LLM 호출 수 Gemini 2.5 Flash에 대한 5개의 호출

상담사 최종 응답 참조 무료

최신 버전 final_response_reference_free_v1
유형 적응형 기준표
설명 참조 답변이 필요 없이 AI 에이전트의 최종 답변 품질을 평가하는 적응형 루브릭 측정항목입니다.
이 측정항목은 자동 생성 루브릭을 지원하지 않으므로 루브릭을 제공해야 합니다.
SDK에서 액세스하는 방법 types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
입력
  • prompt
  • response
  • rubric_groups
출력
  • score
  • rubrics 및 해당 verdicts
점수는 루브릭을 기반으로 한 대답의 통과율을 나타냅니다.
LLM 호출 수 Gemini 2.5 Flash에 대한 5개의 호출

다음 단계