평가 데이터 세트는 일반적으로 평가하려는 모델 응답과 응답을 생성하는 데 사용되는 입력 데이터로 구성되며, 정답 응답을 포함할 수 있습니다. 이 표에서는 평가 데이터 세트를 작성하는 데 필요한 입력을 제공합니다
입력 유형 | 입력 필드 콘텐츠 |
---|---|
응답 | 평가할 LLM 추론 응답입니다. |
요청 사항 | LLM으로 전송되는 추론 요청 사항 및 프롬프트입니다. |
context | LLM 응답의 기반이 되는 컨텍스트입니다. 요약 태스크의 경우 LLM에서 요약하는 텍스트입니다. 질의 응답 태스크의 경우 LLM이 오픈북 질문에 답변할 수 있도록 제공되는 배경 정보입니다. |
참조 | LLM 응답을 비교할 정답입니다. |
baseline_response | 정렬 평가에서 LLM 응답을 비교하는 데 사용되는 기준 LLM 추론 응답입니다. 이를 기준 응답이라고도 합니다. |
평가 데이터 세트에 필요한 입력은 선택한 평가 패러다임과 측정항목은 물론 태스크 자체의 특성에 따라 다릅니다. 측정항목과 예상 입력의 전체 목록은 태스크 및 측정항목을 참조하세요.
평가 데이터 세트를 선별할 때는 통계적으로 유의미한 결과를 산출하기에 데이터 세트가 충분히 큰지 확인하는 것이 중요합니다. 일반적인 벤치마크는 샘플을 100개 이상 포함하는 것입니다. 이 크기는 집계된 평가 결과에서 신뢰도를 높이는 데 도움이 되며, 이상점의 영향을 최소화하고 성능 측정항목이 다양한 시나리오에서 모델의 실제 역량을 반영하는지 확인할 수 있습니다. 적절한 규모의 데이터 세트는 평가의 신뢰성을 높일 뿐만 아니라 정보에 입각한 결정을 내리기 위한 보다 강력한 기반을 제공합니다.
평가 데이터 세트 사용 방법
평가 데이터 세트를 준비한 후 신속 평가 Python SDK에서 또는 평가 파이프라인 서비스를 통해 사용할 수 있습니다. 데이터 세트는 Cloud Storage 등의 위치에서 가져올 수 있습니다. 또한 Vertex AI는 맞춤설정된 데이터 세트를 사용할 준비가 되기 전에 평가 워크플로를 설정할 수 있도록 사전 처리된 Kaggle 데이터 세트 몇 가지를 제공합니다. 평가 수행에서 데이터 세트 사용 방법에 대한 세부정보를 확인할 수 있습니다.
맞춤설정된 데이터 세트 사용
생성형 AI 평가 서비스는 평가 데이터 세트를 다양한 방법으로 사용할 수 있습니다. 평가 데이터 세트 입력 형식과 관련된 Python SDK와 파이프라인의 요구사항은 서로 다릅니다. Python SDK과 파이프라인에서 데이터 세트를 가져오는 방법에 대한 자세한 내용은 평가 예시를 참조하세요.
생성형 AI 평가 서비스 기능 | 지원되는 데이터 세트 위치 및 형식 | 필수 입력 |
---|---|---|
Python SDK | Cloud Storage에 저장된 JSONL 또는 CSV 파일 BigQuery 테이블 Pandas DataFrame |
형식은 태스크 및 측정항목에 따라 선택한 측정항목 입력 요구사항과 일치해야 합니다. 다음 열이 필요할 수 있습니다.
|
계산 기반 파이프라인 | Cloud Storage에 저장된 JSONL 파일 | input_text output_text |
AutoSxS 파이프라인 | Cloud Storage에 저장된 JSONL 파일 BigQuery 테이블 |
형식은 각 모델에서 추론할 때 필요한 형식과 일치해야 하며 매개변수는 자동 평가 도구가 평가 태스크별로 예상합니다. 입력 매개변수에는 다음이 포함됩니다.
|
Kaggle 데이터 세트 사용
맞춤설정된 데이터 세트를 생성형 AI 평가 서비스에 사용할 준비가 되지 않은 경우 Vertex AI는 사전 처리된 Kaggle 데이터 세트를 제공합니다.
데이터 세트는 text generation
, summarization
, question answering
를 포함한 태스크를 지원합니다. 데이터 세트는 Python SDK 및 Pipelines에서 사용할 수 있는 다음 형식으로 변환됩니다.
Kaggle 데이터 세트 | 지원되는 태스크 | 사전 처리된 데이터 세트 | Cloud Storage URL | 지원되는 기능 |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
계산 기반 파이프라인 AutoSxS 파이프라인 신속 평가 Python SDK |
의료 스크립트 작성 | 텍스트 분류 | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
계산 기반 파이프라인 AutoSxS 파이프라인 |
데이터 세트를 사용하는 동안 전체 데이터 세트를 사용하는 대신 소량의 행만 샘플링하여 워크플로를 테스트할 수 있습니다. 이 테이블에 나열된 데이터 세트에는 요청자 지불자가 사용 설정되어 있습니다. 즉, 데이터 처리 요금 및 네트워크 사용 요금이 발생합니다.
다음 단계
- 평가 예시 노트북 사용해 보기
- 생성형 AI 평가 알아보기
- Rapid Evaluation을 통한 온라인 평가 알아보기
- AutoSxS 파이프라인을 사용하는 모델 기반 쌍 평가 알아보기
- 계산 기반 평가 파이프라인 알아보기
- 파운데이션 모델 조정 방법 알아보기