이 페이지에서는 Vertex AI SDK의 GenAI 클라이언트에서 사용할 수 있는 Gen AI Evaluation Service에서 제공하는 관리형 루브릭 기반 측정항목의 전체 목록을 제공합니다.
테스트 기반 평가에 관한 자세한 내용은 평가 측정항목 정의를 참고하세요.
개요
Gen AI Evaluation Service는 테스트 기반 평가 프레임워크에 대해 관리되는 루브릭 기반 측정항목 목록을 제공합니다.
적응형 루브릭이 있는 측정항목의 경우 대부분 각 프롬프트의 루브릭 생성 워크플로와 루브릭 검증이 모두 포함됩니다. 필요한 경우 별도로 실행할 수 있습니다. 자세한 내용은 평가 실행을 참고하세요.
정적 루브릭이 있는 측정항목의 경우 프롬프트별 루브릭이 생성되지 않습니다. 의도한 출력에 관한 자세한 내용은 측정항목 세부정보를 참고하세요.
관리 루브릭 기반 측정항목에는 버전 번호가 있습니다. 측정항목은 기본적으로 최신 버전을 사용하지만 필요한 경우 특정 버전으로 고정할 수 있습니다.
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
하위 호환성
측정항목 프롬프트 템플릿으로 제공되는 측정항목의 경우 동일한 접근 방식을 통해 Vertex AI SDK의 생성형 AI 클라이언트를 통해 포인트별 측정항목에 계속 액세스할 수 있습니다. Vertex AI SDK의 GenAI 클라이언트에서는 페어와이즈 측정항목이 지원되지 않지만 평가 실행을 참고하여 동일한 평가에서 두 모델을 비교하세요.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
관리형 측정항목 세부정보
이 섹션에는 유형, 필수 입력, 예상 출력과 같은 세부정보가 포함된 관리 측정항목이 나열되어 있습니다.
일반적인 품질
최신 버전 | general_quality_v1 |
유형 | 적응형 기준표 |
설명 | 모델 응답의 전반적인 품질을 평가하는 포괄적인 적응형 루브릭 측정항목입니다. 프롬프트의 콘텐츠를 기반으로 다양한 기준을 자동으로 생성하고 평가합니다. 이 방법은 대부분의 평가에 권장되는 시작점입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.GENERAL_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash에 대한 6개의 호출 |
텍스트 품질
최신 버전 | text_quality_v1 |
유형 | 적응형 기준표 |
설명 | 응답의 언어적 품질을 구체적으로 평가하는 타겟 적응형 루브릭 측정항목입니다. 유창성, 일관성, 문법과 같은 측면을 평가합니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.TEXT_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash에 대한 6개의 호출 |
안내 준수성
최신 버전 | instruction_following_v1 |
유형 | 적응형 기준표 |
설명 | 프롬프트에 제공된 특정 제약 조건과 요청 사항을 얼마나 잘 준수하는지 측정하는 타겟 적응형 기준표 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.INSTRUCTION_FOLLOWING |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash에 대한 6개의 호출 |
그라운딩
최신 버전 | grounding_v1 |
유형 | 정적 기준표 |
설명 | 사실성과 일관성을 확인하는 점수 기반 측정항목입니다. 모델의 대답이 컨텍스트를 기반으로 그라운딩되었는지 확인합니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.GROUNDING |
입력 |
|
출력 |
0-1 범위이며, 입력 프롬프트에 대한 supported 또는 no_rad (사실적 출처가 필요하지 않음, 인사말, 질문, 면책 조항 등)로 라벨이 지정된 요청의 비율을 나타냅니다.
설명에는 문장, 라벨, 추론, 맥락에서 발췌한 내용이 그룹화되어 있습니다. |
LLM 호출 수 | Gemini 2.5 Flash에 대한 1개의 호출 |
안전
최신 버전 | safety_v1 |
유형 | 정적 기준표 |
설명 |
모델의 대답이 다음 정책 중 하나 이상을 위반했는지 평가하는 점수 기반 측정항목입니다.
|
SDK에서 액세스하는 방법 | types.RubricMetric.SAFETY |
입력 |
|
출력 |
0 는 안전하지 않고 1 는 안전합니다.
설명 필드에는 위반된 정책이 포함됩니다. |
LLM 호출 수 | Gemini 2.5 Flash에 대한 10개의 호출 |
멀티턴 일반 품질
최신 버전 | multi_turn_general_quality_v1 |
유형 | 적응형 기준표 |
설명 | 멀티턴 대화의 맥락에서 모델 응답의 전반적인 품질을 평가하는 적응형 기준표 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash에 대한 6개의 호출 |
멀티턴 텍스트 품질
최신 버전 | multi_turn_text_quality_v1 |
유형 | 적응형 기준표 |
설명 | 멀티턴 대화의 맥락에서 모델 응답의 텍스트 품질을 평가하는 적응형 기준표 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.TEXT_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash에 대한 6개의 호출 |
상담사 최종 응답 일치
최신 버전 | final_response_match_v2 |
유형 | 정적 기준표 |
설명 | 제공된 참조 답변 (정답)과 비교하여 AI 에이전트의 최종 답변 품질을 평가하는 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.FINAL_RESPONSE_MATCH |
입력 |
|
출력 |
점수
|
LLM 호출 수 | Gemini 2.5 Flash에 대한 5개의 호출 |
상담사 최종 응답 참조 무료
최신 버전 | final_response_reference_free_v1 |
유형 | 적응형 기준표 |
설명 | 참조 답변이 필요 없이 AI 에이전트의 최종 답변 품질을 평가하는 적응형 루브릭 측정항목입니다.
이 측정항목은 자동 생성 루브릭을 지원하지 않으므로 루브릭을 제공해야 합니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash에 대한 5개의 호출 |