Notebooks de evaluación

Proporcionamos varios ejemplos de cómo puedes usar el servicio de evaluación de la IA generativa en Vertex AI para realizar evaluaciones en tus modelos de IA generativa.

Evalúa tus modelos en tiempo real

El servicio de evaluación rápida de Vertex AI te permite evaluar los modelos de IA generativa en tiempo real. Para aprender a usar la evaluación rápida, consulta Ejecuta una evaluación rápida.

Evalúa y optimiza el diseño de la plantilla de instrucciones

Usa el SDK de evaluación rápida para evaluar el efecto de la ingeniería de instrucciones. Examina las estadísticas correspondientes a cada plantilla de mensajes para comprender cómo las diferencias en las instrucciones afectan los resultados de la evaluación.

Evalúa y selecciona LLM con métricas comparativas

Usa el SDK de evaluación rápida para puntuar los modelos de Gemini Pro y Text Bison en un conjunto de datos comparativo y una tarea.

Evalúa y selecciona la configuración de generación del modelo

Usa el SDK de evaluación rápida para ajustar la temperatura de Gemini Pro en una tarea de resumen y evaluar quality, fluency, safety y verbosity.

Define tus métricas

Usa el SDK de evaluación rápida para evaluar varias plantillas de mensajes con tus métricas definidas de forma personalizada.

Evalúa el uso de herramientas y la llamada a funciones

Usa el SDK de evaluación rápida para definir una función de API y una herramienta para el modelo de Gemini. También puedes usar el SDK para evaluar el uso de herramientas y la calidad de las llamadas a funciones de Gemini.

Evalúa las respuestas generadas de RAG para la búsqueda de respuestas

Usa el SDK de evaluación rápida para evaluar una tarea de búsqueda de respuestas a partir de respuestas generadas por generación aumentada y de recuperación (RAG).

Evalúa un LLM en Vertex AI Model Registry con un modelo de terceros

Usar AutoSxS para evaluar las respuestas entre dos modelos y determinar la ganadora. Tú Puedes proporcionar las respuestas o generarlas con Vertex AI Batch Predicciones.

Verifica la alineación del autorizador con un conjunto de datos de preferencias humanas

Usa AutoSxS para verificar qué tan bien se alinean las calificaciones del autor con un conjunto de calificaciones manuales que proporciones para una tarea en particular. Determina si AutoSxS es suficiente para tu caso de uso o si necesita más personalización.

Evalúa las cadenas de Langchain

Usa el SDK de evaluación rápida para evaluar tus cadenas de Langchain. Prepara tus datos, configura tu cadena de Langchain y ejecuta tu evaluación.

¿Qué sigue?