Conjunto de dados de avaliação

O conjunto de dados de avaliação normalmente consiste na resposta do modelo que você quer avaliar, nos dados de entrada usados para gerá-la e pode incluir a resposta de informações empíricas. Essa tabela fornece as entradas necessárias para criar o conjunto de dados de avaliação.

Tipo de entrada Conteúdo do campo de entrada
resposta Sua resposta de inferência do LLM a ser avaliada.
instrução A instrução e o comando de inferência enviados ao LLM.
contexto O contexto em que a resposta do LLM é baseada. Para a tarefa de resumo, esse é o texto resumido pelo LLM. Para tarefas de resposta a perguntas, essas são as informações básicas fornecidas para que o LLM responda à pergunta do livro aberto.
referência As informações empíricas para comparação com sua resposta do LLM.
baseline_response A resposta de inferência do LLM de referência que é usada para comparar sua resposta do LLM na avaliação lado a lado. Isso também é conhecido como a resposta de linha de base.

As entradas necessárias para o conjunto de dados de avaliação diferem com base no paradigma de avaliação e na métrica escolhidos, bem como na natureza das próprias tarefas. Para uma lista completa de métricas e as entradas esperadas, consulte Tarefa e métricas.

Como usar o conjunto de dados de avaliação

Depois de preparar o conjunto de dados de avaliação, use-o no SDK do Python de avaliação rápida ou pelo serviço de pipelines de avaliação. O conjunto de dados pode ser importado de locais como o Cloud Storage. A Vertex AI também fornece alguns conjuntos de dados Kaggle pré-processados para você configurar seu fluxo de trabalho de avaliação antes que seu conjunto de dados personalizado esteja pronto para uso. Você pode encontrar detalhes sobre como consumir o conjunto de dados em Realizar avaliação.

Usar um conjunto de dados personalizado

O serviço de avaliação de IA generativa pode consumir seu conjunto de dados de avaliação de várias maneiras. Nossos pipelines e SDK para Python têm requisitos diferentes em relação ao formato de entrada do conjunto de dados de avaliação. Para informações sobre como importar conjuntos de dados no SDK e pipelines do Python, consulte os Exemplos de avaliação.

Recursos do serviço de avaliação de IA generativa Locais e formatos de conjuntos de dados compatíveis Entradas obrigatórias
SDK do Python Arquivo JSONL ou CSV armazenado no Cloud Storage

Tabela do BigQuery

DataFrame do Pandas
O formato precisa ser consistente com os requisitos de entrada de métrica selecionados, de acordo com Tarefa e Métricas. Estas colunas podem ser necessárias:
  • response
  • reference
  • instruction
  • context
Pipeline baseado em computação Arquivo JSONL armazenado no Cloud Storage input_text
output_text
Pipeline AutoSxS Arquivo JSONL armazenado no Cloud Storage

Tabela do BigQuery
O formato precisa ser consistente com o que cada modelo precisa para inferência, e os parâmetros são esperados pelo autor para a tarefa de avaliação. Os parâmetros de entrada incluem o seguinte:
  • Colunas de ID
  • Texto de entrada para inferência ou previsões pré-geradas
  • Parâmetros de comando do avaliador automático

Usar um conjunto de dados do Kaggle

Se o conjunto de dados personalizado não estiver pronto para uso com o serviço de avaliação de IA generativa, a Vertex AI fornece conjuntos de dados pré-processados do Kaggle. Os conjuntos de dados são compatíveis com tarefas incluindo text generation, summarization e question answering. Os conjuntos de dados são transformados nos seguintes formatos, que podem ser usados pelo SDK e Pipelines do Python.

Conjunto de dados do Kaggle Tarefas compatíveis Conjunto de dados pré-processado URL do Cloud Storage Recurso compatível
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
Pipeline baseado em computação

Pipeline AutoSxS

SDK de avaliação rápida do Python
Transcrições médicas Classificação de textos medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
Pipeline baseado em computação

Pipeline AutoSxS

Ao usar os conjuntos de dados, você pode começar com uma amostragem de uma pequena parte das linhas para testar o fluxo de trabalho em vez de usar o conjunto de dados completo. Os conjuntos de dados listados na tabela têm a opção Pagadores do solicitante ativados, o que significa que há cobranças de processamento de dados e uso de rede.

A seguir