평가 노트북

여기에서는 Vertex AI의 생성형 AI 평가 서비스를 사용하여 생성형 AI 모델을 평가하는 방법에 대한 몇 가지 예시를 제공합니다.

실시간으로 모델 평가

Vertex AI 신속 평가 서비스를 사용하면 생성형 AI 모델을 실시간으로 평가할 수 있습니다. 신속 평가 사용 방법은 신속 평가 실행을 참조하세요.

프롬프트 템플릿 설계 평가 및 최적화

Rapid Evaluation SDK를 사용하여 프롬프트 엔지니어링의 효과를 평가합니다. 각 프롬프트 템플릿에 해당하는 통계를 조사하여 프롬프트의 차이가 평가 결과에 어떤 영향을 미치는지 파악합니다.

벤치마크 측정항목을 사용하여 LLM 평가 및 선택

Rapid Evaluation SDK를 사용하여 벤치마크 데이터 세트 및 태스크에 대한 Gemini Pro와 Text Bison 모델의 점수를 매깁니다.

모델 생성 설정 평가 및 선택

Rapid Evaluation SDK를 사용하여 요약 태스크에서 Gemini Pro의 강도를 조정하고 quality, fluency, safety, verbosity를 평가합니다.

측정항목 정의

Rapid Evaluation SDK를 사용하여 커스텀 정의된 측정항목으로 여러 프롬프트 템플릿을 평가합니다.

도구 사용 및 함수 호출 평가

Rapid Evaluation SDK를 사용하여 API 함수와 Gemini 모델 도구를 정의합니다. 또한 SDK를 사용하여 Gemini의 도구 사용 및 함수 호출 품질을 평가할 수 있습니다.

질의 응답을 위해 RAG에서 생성된 답변 평가

Rapid Evaluation SDK를 사용하여 검색 증강 생성(RAG) 생성 답변에서 질의 응답 태스크를 평가합니다.

Vertex AI Model Registry에서 LLM을 서드 파티 모델과 비교하여 평가

AutoSxS를 사용하여 두 모델 간의 응답을 평가하고 우수한 모델을 결정합니다. 응답을 제공하거나 Vertex AI 일괄 예측을 사용하여 생성할 수 있습니다.

인간 선호도 데이터 세트를 기준으로 자동 평가 도구 정렬 확인

AutoSxS를 사용하여 자동 평가 도구의 평가가 특정 태스크에 제공하는 사람의 평가 세트와 얼마나 잘 부합하는지 확인합니다. AutoSxS가 사용 사례에 충분한지 또는 추가 맞춤설정이 필요한지 확인합니다.

Langchain 체인 평가

Rapid Evaluation SDK를 사용하여 Langchain 체인을 평가합니다. 데이터를 준비하고 Langchain 체인을 설정한 후 평가를 실행합니다.

다음 단계