여기에서는 Rapid Evaluation SDK를 사용하여 생성형 AI 모델을 평가하는 방법에 대한 몇 가지 예시를 제공합니다.
프롬프트 템플릿 설계 평가 및 최적화
Rapid Evaluation SDK를 사용하여 프롬프트 엔지니어링의 효과를 평가합니다. 각 프롬프트 템플릿에 해당하는 통계를 조사하여 프롬프트의 차이가 평가 결과에 어떤 영향을 미치는지 파악합니다.
엔드 투 엔드 예시는 결과 개선을 위한 프롬프트 템플릿 설계 평가 및 최적화 노트북을 참조하세요.
벤치마크 측정항목을 사용하여 LLM 모델 평가 및 선택
Rapid Evaluation SDK를 사용하여 벤치마크 데이터 세트 및 태스크에 대한 Gemini Pro와 Text Bison 모델의 점수를 매깁니다.
엔드 투 엔드 예시는 LLM 모델 점수 및 선택 노트북을 참조하세요.
모델 생성 설정 평가 및 선택
Rapid Evaluation SDK를 사용하여 요약 태스크에서 Gemini Pro의 강도를 조정하고 quality
, fluency
, safety
, verbosity
를 평가합니다.
엔드 투 엔드 예시는 모델 생성 설정 평가 및 선택 노트북을 참조하세요.
측정항목 정의
Rapid Evaluation SDK를 사용하여 커스텀 정의된 측정항목으로 여러 프롬프트 템플릿을 평가합니다.
엔드 투 엔드 예시는 자체 측정항목 정의 노트북을 참조하세요.
도구 사용 평가
Rapid Evaluation SDK를 사용하여 API 함수와 Gemini 모델 도구를 정의합니다. 또한 SDK를 사용하여 Gemini의 도구 사용 및 함수 호출 품질을 평가할 수 있습니다.
엔드 투 엔드 예시는 생성형 모델 도구 사용 및 함수 호출 평가 노트북을 참조하세요.
다음 단계
- 모델 평가 빠른 시작 방법 알아보기
- 생성형 AI 평가 알아보기
- Rapid Evaluation을 통한 온라인 평가 알아보기
- AutoSxS 파이프라인을 사용하는 모델 기반 쌍 평가 알아보기
- 계산 기반 평가 파이프라인 알아보기
- 기반 모델 조정 방법 알아보기