이 페이지에서는 Vertex AI SDK의 생성형 AI 클라이언트에서 사용할 수 있는 Gen AI Evaluation Service에서 제공하는 관리형 기준표 기반 측정항목의 전체 목록을 제공합니다.
테스트 기반 평가에 대한 자세한 내용은 평가 측정항목 정의를 참조하세요.
개요
Gen AI Evaluation Service는 테스트 기반 평가 프레임워크의 관리형 기준표 기반 측정항목 목록을 제공합니다.
적응형 기준표가 있는 측정항목의 경우 대부분 각 프롬프트의 기준표 생성 워크플로와 기준표 검증 모두 포함됩니다. 필요한 경우 별도로 실행할 수 있습니다. 자세한 내용은 평가 실행을 참조하세요.
정적 기준표가 있는 측정항목의 경우 프롬프트별 기준표가 생성되지 않습니다. 의도한 출력에 대한 자세한 내용은 측정항목 세부정보를 참조하세요.
관리형 기준표 기반 측정항목에는 버전 관리 번호가 있습니다. 측정항목은 기본적으로 최신 버전을 사용하지만 필요한 경우 특정 버전으로 고정할 수 있습니다.
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
하위 호환성
측정항목 프롬프트 템플릿으로 제공되는 측정항목의 경우 같은 방식으로 Vertex AI SDK의 생성형 AI 클라이언트를 통해 점별 측정항목에 계속 액세스할 수 있습니다. Vertex AI SDK의 생성형 AI 클라이언트에서는 쌍별 측정항목이 지원되지 않지만 평가 실행을 참조하여 같은 평가에서 두 모델을 비교합니다.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
관리형 측정항목 세부정보
이 섹션에는 유형, 필수 입력, 예상 출력과 같은 세부정보가 포함된 관리형 측정항목이 나와 있습니다.
일반적인 품질
최신 버전 | general_quality_v1 |
유형 | 적응형 기준표 |
설명 | 전반적인 모델 대답 품질을 평가하는 포괄적인 적응형 기준표 측정항목입니다. 프롬프트 콘텐츠를 기반으로 다양한 기준을 자동으로 생성하고 평가합니다. 이 방법은 대부분의 평가에 권장되는 출발지입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.GENERAL_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash 호출 6회 |
텍스트 품질
최신 버전 | text_quality_v1 |
유형 | 적응형 기준표 |
설명 | 대답의 언어적 품질을 구체적으로 평가하는 타겟팅된 적응형 기준표 측정항목입니다. 유창성, 일관성, 문법과 같은 측면을 평가합니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.TEXT_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash 호출 6회 |
안내 준수성
최신 버전 | instruction_following_v1 |
유형 | 적응형 기준표 |
설명 | 프롬프트에 제공된 특정 제약 조건과 요청 사항을 얼마나 잘 준수하는지 측정하는 타겟팅된 적응형 기준표 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.INSTRUCTION_FOLLOWING |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash 호출 6회 |
그라운딩
최신 버전 | grounding_v1 |
유형 | 정적 기준표 |
설명 | 사실성과 일관성을 확인하는 점수 기반 측정항목입니다. 모델 대답이 컨텍스트를 기반으로 그라운딩되었는지 확인합니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.GROUNDING |
입력 |
|
출력 |
0-1 사이이며 입력 프롬프트에 대한 supported 또는 no_rad (사실적 기여 분석 불필요, 인사말, 질문, 면책 조항 등)로 라벨이 지정된 클레임의 비율을 나타냅니다.
설명에는 문장, 라벨, 추론, 맥락에서의 발췌물이 그룹화되어 있습니다. |
LLM 호출 수 | Gemini 2.5 Flash 호출 1회 |
안전
최신 버전 | safety_v1 |
유형 | 정적 기준표 |
설명 |
모델 대답이 다음 정책 중 하나 이상을 위반했는지 여부를 평가하는 점수 기반 측정항목입니다.
|
SDK에서 액세스하는 방법 | types.RubricMetric.SAFETY |
입력 |
|
출력 |
0 은 안전하지 않고 1 은 안전합니다.
설명 필드에는 위반된 정책이 포함됩니다. |
LLM 호출 수 | Gemini 2.5 Flash 호출 10회 |
멀티턴 일반 품질
최신 버전 | multi_turn_general_quality_v1 |
유형 | 적응형 기준표 |
설명 | 멀티턴 대화의 맥락에서 전반적인 모델 대답 품질을 평가하는 적응형 기준표 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash 호출 6회 |
멀티턴 텍스트 품질
최신 버전 | multi_turn_text_quality_v1 |
유형 | 적응형 기준표 |
설명 | 멀티턴 대화의 맥락에서 모델 대답의 텍스트 품질을 평가하는 적응형 기준표 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.TEXT_QUALITY |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash 호출 6회 |
에이전트 최종 대답 일치
최신 버전 | final_response_match_v2 |
유형 | 정적 기준표 |
설명 | 제공된 참조 답변(정답)과 비교하여 AI 에이전트의 최종 답변 품질을 평가하는 측정항목입니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.FINAL_RESPONSE_MATCH |
입력 |
|
출력 |
점수
|
LLM 호출 수 | Gemini 2.5 Flash 호출 5회 |
에이전트 최종 대답 참조 무료
최신 버전 | final_response_reference_free_v1 |
유형 | 적응형 기준표 |
설명 | 참조 답변이 필요 없이 AI 에이전트의 최종 답변 품질을 평가하는 적응형 기준표 측정항목입니다.
이 측정항목은 자동 생성 기준표를 지원하지 않으므로 측정항목에 대한 기준표를 제공해야 합니다. |
SDK에서 액세스하는 방법 | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
입력 |
|
출력 |
|
LLM 호출 수 | Gemini 2.5 Flash 호출 5회 |