Conjunto de datos de evaluación

Por lo general, el conjunto de datos de evaluación consta de la respuesta del modelo que deseas evaluar, los datos de entrada que se usaron para generar tu respuesta y puede incluir la respuesta de verdad fundamental. En esta tabla, se proporcionan las entradas necesarias para construir el conjunto de datos de evaluación.

Tipo de entrada Contenido del campo de entrada
respuesta Tu respuesta de inferencia de LLM para evaluar.
instrucción El prompt y la instrucción de inferencia que se envían a tu LLM.
contexto El contexto en el que se basa tu respuesta de LLM. Para la tarea de resumen, este es el texto que resume el LLM. Para las tareas de respuesta a preguntas, esta es la información general proporcionada para que el LLM responda a la pregunta de libro abierto.
referencia La verdad fundamental con la que se comparará tu respuesta de LLM.
baseline_response La respuesta de inferencia de LLM del modelo de referencia que se usa para comparar tu respuesta de LLM en la evaluación en paralelo. Esto también se conoce como respuesta del modelo de referencia.

Las entradas necesarias para el conjunto de datos de evaluación difieren según el paradigma de evaluación y la métrica que elijas, así como la naturaleza de las tareas en sí. Para obtener una lista completa de las métricas y sus entradas esperadas, consulta Tareas y métricas.

Cómo usar el conjunto de datos de evaluación

Después de preparar el conjunto de datos de evaluación, puedes usarlo en el SDK de Python de evaluación rápida o mediante el servicio de canalizaciones de evaluación. El conjunto de datos se puede importar desde ubicaciones como Cloud Storage. Vertex AI también proporciona algunos conjuntos de datos de Kaggle procesados con anterioridad para que configures tu flujo de trabajo de evaluación antes de que tu conjunto de datos personalizado esté listo para usar. Puedes encontrar detalles sobre cómo consumir el conjunto de datos en Realizar una evaluación.

Usa un conjunto de datos personalizado

El servicio de evaluación de la IA generativa puede consumir tu conjunto de datos de evaluación de varias maneras. Nuestros SDK de Python y canalizaciones tienen requisitos diferentes en relación con el formato de entrada del conjunto de datos de evaluación. Para obtener información sobre cómo importar conjuntos de datos en el SDK de Python y las canalizaciones, consulta los Ejemplos de evaluación.

Funciones del servicio de evaluación de IA generativa Ubicaciones y formato de conjuntos de datos compatibles Entradas obligatorias
Python SDK Archivo JSONL o CSV almacenado en Cloud Storage

Tabla de BigQuery

DataFrame de Pandas
El formato debe ser coherente con los requisitos de entrada de métricas seleccionados según tareas y métricas. Es posible que estas columnas sean obligatorias:
  • response
  • reference
  • instruction
  • context
Canalización basada en procesamiento Archivo JSONL almacenado en Cloud Storage input_text
output_text
Canalización de AutoSxS Archivo JSONL almacenado en Cloud Storage

Tabla de BigQuery
El formato debe ser coherente con lo que necesita cada modelo para la inferencia, y el evaluador automático espera los parámetros para la tarea de evaluación. Los parámetros de entrada incluyen lo siguiente:
  • Columnas de ID
  • Texto de entrada para inferencia o predicciones generadas previamente
  • Parámetros de prompt del evaluador automático

Usa un conjunto de datos de Kaggle

Si tu conjunto de datos personalizado no está listo para que lo uses con el servicio de evaluación de IA generativa, Vertex AI proporciona conjuntos de datos de Kaggle procesados con anterioridad. Los conjuntos de datos admiten tareas como text generation, summarization y question answering. Los conjuntos de datos se transforman en los siguientes formatos que el SDK de Python y las canalizaciones pueden usar.

Conjunto de datos de Kaggle Tareas admitidas Conjunto de datos procesado previamente URL de Cloud Storage Función compatible
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
Canalización basada en procesamiento

Canalización de AutoSxS

SDK de Python de evaluación rápida
Transcripciones médicas Clasificación de textos medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
Canalización basada en procesamiento

Canalización de AutoSxS

Mientras usas los conjuntos de datos, puedes comenzar con el muestreo de una pequeña parte de las filas para probar el flujo de trabajo, en lugar de usar el conjunto de datos completo. Los conjuntos de datos que se muestran en la tabla tienen activados los pagos de los solicitantes, lo que significa que generan cargos de procesamiento de datos y de uso de red.

¿Qué sigue?