O conjunto de dados de avaliação normalmente consiste na resposta do modelo que você quer avaliar, nos dados de entrada usados para gerá-la e pode incluir a resposta de informações empíricas. Essa tabela fornece as entradas necessárias para criar o conjunto de dados de avaliação.
Tipo de entrada | Conteúdo do campo de entrada |
---|---|
resposta | Sua resposta de inferência do LLM a ser avaliada. |
instrução | A instrução e o comando de inferência enviados ao LLM. |
contexto | O contexto em que a resposta do LLM é baseada. Para a tarefa de resumo, esse é o texto resumido pelo LLM. Para tarefas de resposta a perguntas, essas são as informações básicas fornecidas para que o LLM responda à pergunta do livro aberto. |
referência | As informações empíricas para comparação com sua resposta do LLM. |
baseline_response | A resposta de inferência do LLM de referência que é usada para comparar sua resposta do LLM na avaliação lado a lado. Isso também é conhecido como a resposta de linha de base. |
As entradas necessárias para o conjunto de dados de avaliação diferem com base no paradigma de avaliação e na métrica escolhidos, bem como na natureza das próprias tarefas. Para uma lista completa de métricas e as entradas esperadas, consulte Tarefa e métricas.
Como usar o conjunto de dados de avaliação
Depois de preparar o conjunto de dados de avaliação, use-o no SDK do Python de avaliação rápida ou pelo serviço de pipelines de avaliação. O conjunto de dados pode ser importado de locais como o Cloud Storage. A Vertex AI também fornece alguns conjuntos de dados Kaggle pré-processados para você configurar seu fluxo de trabalho de avaliação antes que seu conjunto de dados personalizado esteja pronto para uso. Você pode encontrar detalhes sobre como consumir o conjunto de dados em Realizar avaliação.
Usar um conjunto de dados personalizado
O serviço de avaliação de IA generativa pode consumir seu conjunto de dados de avaliação de várias maneiras. Nossos pipelines e SDK para Python têm requisitos diferentes em relação ao formato de entrada do conjunto de dados de avaliação. Para informações sobre como importar conjuntos de dados no SDK e pipelines do Python, consulte os Exemplos de avaliação.
Recursos do serviço de avaliação de IA generativa | Locais e formatos de conjuntos de dados compatíveis | Entradas obrigatórias |
---|---|---|
SDK do Python | Arquivo JSONL ou CSV armazenado no Cloud Storage Tabela do BigQuery DataFrame do Pandas |
O formato precisa ser consistente com os requisitos de entrada de métrica selecionados, de acordo com Tarefa e Métricas. Estas colunas podem ser necessárias:
|
Pipeline baseado em computação | Arquivo JSONL armazenado no Cloud Storage | input_text output_text |
Pipeline AutoSxS | Arquivo JSONL armazenado no Cloud Storage Tabela do BigQuery |
O formato precisa ser consistente com o que cada modelo precisa para inferência, e os parâmetros são esperados pelo autor para a tarefa de avaliação. Os parâmetros de entrada incluem o seguinte:
|
Usar um conjunto de dados do Kaggle
Se o conjunto de dados personalizado não estiver pronto para uso com o serviço de avaliação
de IA generativa, a Vertex AI fornece conjuntos de dados pré-processados do Kaggle.
Os conjuntos de dados são compatíveis com tarefas incluindo text generation
, summarization
e question answering
. Os conjuntos de dados são transformados nos seguintes formatos, que podem ser usados pelo SDK e Pipelines do Python.
Conjunto de dados do Kaggle | Tarefas compatíveis | Conjunto de dados pré-processado | URL do Cloud Storage | Recurso compatível |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
Pipeline baseado em computação Pipeline AutoSxS SDK de avaliação rápida do Python |
Transcrições médicas | Classificação de textos | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
Pipeline baseado em computação Pipeline AutoSxS |
Ao usar os conjuntos de dados, você pode começar com uma amostragem de uma pequena parte das linhas para testar o fluxo de trabalho em vez de usar o conjunto de dados completo. Os conjuntos de dados listados na tabela têm a opção Pagadores do solicitante ativados, o que significa que há cobranças de processamento de dados e uso de rede.
A seguir
- Teste um notebook de exemplo de avaliação.
- Saiba mais sobre avaliação de IA generativa.
- Saiba mais sobre a avaliação on-line com uma avaliação rápida.
- Saiba mais sobre a avaliação em pares baseada em modelo com o pipeline AutoSxS.
- Saiba mais sobre o pipeline de avaliação baseado em computação.
- Saiba como ajustar um modelo de fundação.