평가 예시

여기에서는 Rapid Evaluation SDK를 사용하여 생성형 AI 모델을 평가하는 방법에 대한 몇 가지 예시를 제공합니다.

프롬프트 템플릿 설계 평가 및 최적화

Rapid Evaluation SDK를 사용하여 프롬프트 엔지니어링의 효과를 평가합니다. 각 프롬프트 템플릿에 해당하는 통계를 조사하여 프롬프트의 차이가 평가 결과에 어떤 영향을 미치는지 파악합니다.

엔드 투 엔드 예시는 결과 개선을 위한 프롬프트 템플릿 설계 평가 및 최적화 노트북을 참조하세요.

벤치마크 측정항목을 사용하여 LLM 모델 평가 및 선택

Rapid Evaluation SDK를 사용하여 벤치마크 데이터 세트 및 태스크에 대한 Gemini Pro와 Text Bison 모델의 점수를 매깁니다.

엔드 투 엔드 예시는 LLM 모델 점수 및 선택 노트북을 참조하세요.

모델 생성 설정 평가 및 선택

Rapid Evaluation SDK를 사용하여 요약 태스크에서 Gemini Pro의 강도를 조정하고 quality, fluency, safety, verbosity를 평가합니다.

엔드 투 엔드 예시는 모델 생성 설정 평가 및 선택 노트북을 참조하세요.

측정항목 정의

Rapid Evaluation SDK를 사용하여 커스텀 정의된 측정항목으로 여러 프롬프트 템플릿을 평가합니다.

엔드 투 엔드 예시는 자체 측정항목 정의 노트북을 참조하세요.

도구 사용 평가

Rapid Evaluation SDK를 사용하여 API 함수와 Gemini 모델 도구를 정의합니다. 또한 SDK를 사용하여 Gemini의 도구 사용 및 함수 호출 품질을 평가할 수 있습니다.

엔드 투 엔드 예시는 생성형 모델 도구 사용 및 함수 호출 평가 노트북을 참조하세요.

다음 단계