2025년 4월 29일부터 신규 프로젝트를 포함해 이전에 이러한 모델을 사용한 적이 없는 프로젝트에서는 Gemini 1.5 Pro 및 Gemini 1.5 Flash 모델을 사용할 수 없습니다. 자세한 내용은 모델 버전 및 수명 주기를 참조하세요.

관리형 기준표 기반 측정항목 세부정보

이 페이지에서는 Vertex AI SDK의 생성형 AI 클라이언트에서 사용할 수 있는 Gen AI Evaluation Service에서 제공하는 관리형 기준표 기반 측정항목의 전체 목록을 제공합니다.

테스트 기반 평가에 대한 자세한 내용은 평가 측정항목 정의를 참조하세요.

개요

Gen AI Evaluation Service는 테스트 기반 평가 프레임워크의 관리형 기준표 기반 측정항목 목록을 제공합니다.

적응형 기준표가 있는 측정항목의 경우 대부분 각 프롬프트의 기준표 생성 워크플로와 기준표 검증 모두 포함됩니다. 필요한 경우 별도로 실행할 수 있습니다. 자세한 내용은 평가 실행을 참조하세요.
정적 기준표가 있는 측정항목의 경우 프롬프트별 기준표가 생성되지 않습니다. 의도한 출력에 대한 자세한 내용은 측정항목 세부정보를 참조하세요.

관리형 기준표 기반 측정항목에는 버전 관리 번호가 있습니다. 측정항목은 기본적으로 최신 버전을 사용하지만 필요한 경우 특정 버전으로 고정할 수 있습니다.

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

하위 호환성

측정항목 프롬프트 템플릿으로 제공되는 측정항목의 경우 같은 방식으로 Vertex AI SDK의 생성형 AI 클라이언트를 통해 점별 측정항목에 계속 액세스할 수 있습니다. Vertex AI SDK의 생성형 AI 클라이언트에서는 쌍별 측정항목이 지원되지 않지만 평가 실행을 참조하여 같은 평가에서 두 모델을 비교합니다.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

관리형 측정항목 세부정보

이 섹션에는 유형, 필수 입력, 예상 출력과 같은 세부정보가 포함된 관리형 측정항목이 나와 있습니다.

일반적인 품질
텍스트 품질
요청 사항 준수
그라운딩
안전
멀티턴 일반 품질
멀티턴 텍스트 품질
에이전트 최종 대답 일치
에이전트 최종 대답 참조 무료

일반적인 품질

최신 버전	`general_quality_v1`
유형	적응형 기준표
설명	전반적인 모델 대답 품질을 평가하는 포괄적인 적응형 기준표 측정항목입니다. 프롬프트 콘텐츠를 기반으로 다양한 기준을 자동으로 생성하고 평가합니다. 이 방법은 대부분의 평가에 권장되는 출발지입니다.
SDK에서 액세스하는 방법	`types.RubricMetric.GENERAL_QUALITY`
입력	`prompt` `response` (선택사항) `rubric_groups` 이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력	`score` `rubrics` 및 해당 `verdicts` 점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수	Gemini 2.5 Flash 호출 6회

텍스트 품질

최신 버전	`text_quality_v1`
유형	적응형 기준표
설명	대답의 언어적 품질을 구체적으로 평가하는 타겟팅된 적응형 기준표 측정항목입니다. 유창성, 일관성, 문법과 같은 측면을 평가합니다.
SDK에서 액세스하는 방법	`types.RubricMetric.TEXT_QUALITY`
입력	`prompt` `response` (선택사항) `rubric_groups` 이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력	`score` `rubrics` 및 해당 `verdicts` 점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수	Gemini 2.5 Flash 호출 6회

안내 준수성

최신 버전	`instruction_following_v1`
유형	적응형 기준표
설명	프롬프트에 제공된 특정 제약 조건과 요청 사항을 얼마나 잘 준수하는지 측정하는 타겟팅된 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법	`types.RubricMetric.INSTRUCTION_FOLLOWING`
입력	`prompt` `response` (선택사항) `rubric_groups` 이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력	`score`(합격률) `rubrics` 및 해당 `verdicts` 점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수	Gemini 2.5 Flash 호출 6회

그라운딩

최신 버전	`grounding_v1`
유형	정적 기준표
설명	사실성과 일관성을 확인하는 점수 기반 측정항목입니다. 모델 대답이 컨텍스트를 기반으로 그라운딩되었는지 확인합니다.
SDK에서 액세스하는 방법	`types.RubricMetric.GROUNDING`
입력	`prompt` `response` `context`
출력	`score` `explanation` 점수는 `0-1` 사이이며 입력 프롬프트에 대한 `supported` 또는 `no_rad`(사실적 기여 분석 불필요, 인사말, 질문, 면책 조항 등)로 라벨이 지정된 클레임의 비율을 나타냅니다. 설명에는 문장, 라벨, 추론, 맥락에서의 발췌물이 그룹화되어 있습니다.
LLM 호출 수	Gemini 2.5 Flash 호출 1회

안전

최신 버전	`safety_v1`
유형	정적 기준표
설명	모델 대답이 다음 정책 중 하나 이상을 위반했는지 여부를 평가하는 점수 기반 측정항목입니다. 개인 식별 정보 및 인구통계 데이터 증오심 표현 위험한 콘텐츠 괴롭힘 선정적
SDK에서 액세스하는 방법	`types.RubricMetric.SAFETY`
입력	`prompt` `response`
출력	`score` `explanation` 점수의 경우 `0`은 안전하지 않고 `1`은 안전합니다. 설명 필드에는 위반된 정책이 포함됩니다.
LLM 호출 수	Gemini 2.5 Flash 호출 10회

멀티턴 일반 품질

최신 버전	`multi_turn_general_quality_v1`
유형	적응형 기준표
설명	멀티턴 대화의 맥락에서 전반적인 모델 대답 품질을 평가하는 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
입력	`prompt`(멀티턴 대화 포함) `response` (선택사항) `rubric_groups` 이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력	`score` 기준표 및 해당 확인 결과 점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수	Gemini 2.5 Flash 호출 6회

멀티턴 텍스트 품질

최신 버전	`multi_turn_text_quality_v1`
유형	적응형 기준표
설명	멀티턴 대화의 맥락에서 모델 대답의 텍스트 품질을 평가하는 적응형 기준표 측정항목입니다.
SDK에서 액세스하는 방법	`types.RubricMetric.TEXT_QUALITY`
입력	`prompt`(멀티턴 대화 포함) `response` (선택사항) `rubric_groups` 이미 생성된 기준표가 있으면 평가에 사용할 기준표를 직접 제공할 수 있습니다.
출력	`score` `rubrics` 및 해당 `verdicts` 점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수	Gemini 2.5 Flash 호출 6회

에이전트 최종 대답 일치

최신 버전	`final_response_match_v2`
유형	정적 기준표
설명	제공된 참조 답변(정답)과 비교하여 AI 에이전트의 최종 답변 품질을 평가하는 측정항목입니다.
SDK에서 액세스하는 방법	`types.RubricMetric.FINAL_RESPONSE_MATCH`
입력	`prompt` `response` `reference`
출력	점수 1: 참조와 일치하는 유효한 대답입니다. 0: 참조와 일치하지 않는 잘못된 대답입니다. 설명
LLM 호출 수	Gemini 2.5 Flash 호출 5회

에이전트 최종 대답 참조 무료

최신 버전	`final_response_reference_free_v1`
유형	적응형 기준표
설명	참조 답변이 필요 없이 AI 에이전트의 최종 답변 품질을 평가하는 적응형 기준표 측정항목입니다. 이 측정항목은 자동 생성 기준표를 지원하지 않으므로 측정항목에 대한 기준표를 제공해야 합니다.
SDK에서 액세스하는 방법	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
입력	`prompt` `response` `rubric_groups`
출력	`score` `rubrics` 및 해당 `verdicts` 점수는 기준표를 기반으로 한 대답 통과율을 나타냅니다.
LLM 호출 수	Gemini 2.5 Flash 호출 5회

다음 단계

평가 데이터 세트 준비