평가 데이터 세트

평가 데이터 세트는 일반적으로 평가하려는 모델 응답과 응답을 생성하는 데 사용되는 입력 데이터로 구성되며, 정답 응답을 포함할 수 있습니다. 이 표에서는 평가 데이터 세트를 작성하는 데 필요한 입력을 제공합니다

입력 유형 입력 필드 콘텐츠
응답 평가할 LLM 추론 응답입니다.
요청 사항 LLM으로 전송되는 추론 요청 사항 및 프롬프트입니다.
context LLM 응답의 기반이 되는 컨텍스트입니다. 요약 태스크의 경우 LLM에서 요약하는 텍스트입니다. 질의 응답 태스크의 경우 LLM이 오픈북 질문에 답변할 수 있도록 제공되는 배경 정보입니다.
참조 LLM 응답을 비교할 정답입니다.
baseline_response 정렬 평가에서 LLM 응답을 비교하는 데 사용되는 기준 LLM 추론 응답입니다. 이를 기준 응답이라고도 합니다.

평가 데이터 세트에 필요한 입력은 선택한 평가 패러다임과 측정항목은 물론 태스크 자체의 특성에 따라 다릅니다. 측정항목과 예상 입력의 전체 목록은 태스크 및 측정항목을 참조하세요.

평가 데이터 세트를 선별할 때는 통계적으로 유의미한 결과를 산출하기에 데이터 세트가 충분히 큰지 확인하는 것이 중요합니다. 일반적인 벤치마크는 샘플을 100개 이상 포함하는 것입니다. 이 크기는 집계된 평가 결과에서 신뢰도를 높이는 데 도움이 되며, 이상점의 영향을 최소화하고 성능 측정항목이 다양한 시나리오에서 모델의 실제 역량을 반영하는지 확인할 수 있습니다. 적절한 규모의 데이터 세트는 평가의 신뢰성을 높일 뿐만 아니라 정보에 입각한 결정을 내리기 위한 보다 강력한 기반을 제공합니다.

평가 데이터 세트 사용 방법

평가 데이터 세트를 준비한 후 신속 평가 Python SDK에서 또는 평가 파이프라인 서비스를 통해 사용할 수 있습니다. 데이터 세트는 Cloud Storage 등의 위치에서 가져올 수 있습니다. 또한 Vertex AI는 맞춤설정된 데이터 세트를 사용할 준비가 되기 전에 평가 워크플로를 설정할 수 있도록 사전 처리된 Kaggle 데이터 세트 몇 가지를 제공합니다. 평가 수행에서 데이터 세트 사용 방법에 대한 세부정보를 확인할 수 있습니다.

맞춤설정된 데이터 세트 사용

생성형 AI 평가 서비스는 평가 데이터 세트를 다양한 방법으로 사용할 수 있습니다. 평가 데이터 세트 입력 형식과 관련된 Python SDK와 파이프라인의 요구사항은 서로 다릅니다. Python SDK과 파이프라인에서 데이터 세트를 가져오는 방법에 대한 자세한 내용은 평가 예시를 참조하세요.

생성형 AI 평가 서비스 기능 지원되는 데이터 세트 위치 및 형식 필수 입력
Python SDK Cloud Storage에 저장된 JSONL 또는 CSV 파일

BigQuery 테이블

Pandas DataFrame
형식은 태스크 및 측정항목에 따라 선택한 측정항목 입력 요구사항과 일치해야 합니다. 다음 열이 필요할 수 있습니다.
  • response
  • reference
  • instruction
  • context
계산 기반 파이프라인 Cloud Storage에 저장된 JSONL 파일 input_text
output_text
AutoSxS 파이프라인 Cloud Storage에 저장된 JSONL 파일

BigQuery 테이블
형식은 각 모델에서 추론할 때 필요한 형식과 일치해야 하며 매개변수는 자동 평가 도구가 평가 태스크별로 예상합니다. 입력 매개변수에는 다음이 포함됩니다.
  • ID 열
  • 추론 또는 사전 생성된 예측을 위한 입력 텍스트
  • 자동 평가 도구 프롬프트 매개변수

Kaggle 데이터 세트 사용

맞춤설정된 데이터 세트를 생성형 AI 평가 서비스에 사용할 준비가 되지 않은 경우 Vertex AI는 사전 처리된 Kaggle 데이터 세트를 제공합니다. 데이터 세트는 text generation, summarization, question answering를 포함한 태스크를 지원합니다. 데이터 세트는 Python SDK 및 Pipelines에서 사용할 수 있는 다음 형식으로 변환됩니다.

Kaggle 데이터 세트 지원되는 태스크 사전 처리된 데이터 세트 Cloud Storage URL 지원되는 기능
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
계산 기반 파이프라인

AutoSxS 파이프라인

신속 평가 Python SDK
의료 스크립트 작성 텍스트 분류 medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
계산 기반 파이프라인

AutoSxS 파이프라인

데이터 세트를 사용하는 동안 전체 데이터 세트를 사용하는 대신 소량의 행만 샘플링하여 워크플로를 테스트할 수 있습니다. 이 테이블에 나열된 데이터 세트에는 요청자 지불자가 사용 설정되어 있습니다. 즉, 데이터 처리 요금 및 네트워크 사용 요금이 발생합니다.

다음 단계