Set di dati di valutazione

Il set di dati di valutazione è in genere costituito dalla risposta del modello che valutare, i dati di input utilizzati per generare la risposta e potrebbero includere la risposta basata su dati di fatto. Questa tabella fornisce gli input necessari per creare il set di dati di valutazione.

Tipo input Contenuti del campo di immissione
risposta La risposta di inferenza LLM da valutare.
istruzione L'istruzione e il prompt di inferenza inviati al tuo LLM.
context Il contesto su cui si basa la risposta LLM. Per l'attività di riassunto, questo è il testo riassunto dall'LLM. Per le attività di risposta alle domande, queste sono le informazioni di base fornite all'LLM per rispondere alla domanda sul libro aperto.
riferimento I dati di fatto con cui confrontare la risposta del tuo LLM.
baseline_response La risposta di inferenza LLM di base utilizzata per confrontare la risposta LLM nella valutazione affiancata. Questo è anche noto come risposta di riferimento.

Gli input richiesti per il set di dati di valutazione variano in base alla valutazione il paradigma e la metrica che scegli, nonché la natura delle attività stesse. Per un elenco completo delle metriche e dei relativi input previsti, consulta Attività e metriche.

Quando si seleziona un set di dati di valutazione, è fondamentale assicurarsi che sia sufficientemente grande per generare risultati statisticamente significativi. Un benchmark comune consiste nell'includere almeno 100 campioni. Queste dimensioni aiutano a stabilire un livello di confidenza più elevato nei risultati della valutazione aggregata, riducendo al minimo l'influenza degli outlier e assicurando che le metriche delle prestazioni riflettano le vere capacità del modello in diversi scenari. Un set di dati di dimensioni adeguate non solo migliora l'affidabilità della valutazione, ma fornisce anche una base più solida per prendere decisioni informate.

Come utilizzare il set di dati di valutazione

Dopo aver preparato il set di dati di valutazione, puoi utilizzarlo nel file Python di valutazione rapida tramite SDK o tramite il servizio delle pipeline di valutazione. Il set di dati può essere importato da località come Cloud Storage. Vertex AI offre anche pre-elaborato Set di dati di Kaggle per consentirti di configurare del flusso di lavoro di valutazione prima che il set di dati personalizzato sia pronto per l'uso. Puoi visualizzare su come utilizzare il set di dati Esegui una valutazione.

Utilizza un set di dati personalizzato

Il servizio di valutazione dell'AI generativa può utilizzare il tuo set di dati di valutazione in in vari modi. L'SDK e le pipeline Python hanno requisiti diversi in merito al formato di input del set di dati di valutazione. Per informazioni sull'importazione nell'SDK e nelle pipeline di Python, consulta la sezione Esempi di valutazione.

Funzionalità del servizio di valutazione dell'IA generativa Località e formato dei set di dati supportati Input obbligatori
SDK Python File JSONL o CSV archiviato in Cloud Storage

Tabella BigQuery

Pandas DataFrame
Il formato deve essere coerente con i requisiti di input delle metriche selezionati, in base ad Attività e metriche. Queste colonne potrebbero essere obbligatorie:
  • response
  • reference
  • instruction
  • context
Pipeline basata sul calcolo File JSONL archiviato in Cloud Storage input_text
output_text
Pipeline AutoSxS File JSONL archiviato in Cloud Storage

Tabella BigQuery
Il formato deve essere coerente con ciò che è necessario per ogni modello per l'inferenza e i parametri sono previsti dal classificatore automatico per l'attività di valutazione. I parametri di input includono:
  • Colonne ID
  • Testo di input per l'inferenza o le previsioni pregenerate
  • Parametri prompt dello strumento di valutazione automatica

Utilizzare un set di dati Kaggle

Se il tuo set di dati personalizzato non è pronto per essere utilizzato con l'AI generativa Vertex AI fornisce set di dati Kaggle pre-elaborati. I set di dati supportano attività tra cui text generation, summarization e question answering. I set di dati vengono trasformati nei seguenti formati che possono essere utilizzate dall'SDK e le pipeline Python.

Set di dati Kaggle Attività supportate Set di dati pre-elaborato URL di Cloud Storage Funzionalità supportata
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
Pipeline basata computazionale

Pipeline AutoML

SDK Python di valutazione rapida
Trascrizioni mediche Classificazione del testo medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
Pipeline basata sul calcolo

Pipeline AutoML

Mentre utilizzi i set di dati, puoi iniziare campionando una piccola parte di righe per per testare il flusso di lavoro invece di usare l'intero set di dati. I set di dati elencati nel in cui è stato attivato l'opzione Richiedenti pagatori, che significa che sono soggetti ad addebiti per il trattamento dei dati e per l'utilizzo della rete.

Passaggi successivi