Notebooks de evaluación

Proporcionamos varios ejemplos de cómo puedes usar el SDK de evaluación rápida para realizar evaluaciones en tus modelos de IA generativa.

Evalúa tus modelos en tiempo real

El servicio de evaluación rápida de Vertex AI te permite evaluar los modelos de IA generativa en tiempo real. Para aprender a usar la evaluación rápida, consulta Ejecuta una evaluación rápida.

Si deseas ver un ejemplo de extremo a extremo, consulta el notebook de Colab del SDK de Vertex AI para Python con una evaluación rápida.

Evalúa y optimiza el diseño de la plantilla de instrucciones

Usa el SDK de evaluación rápida para evaluar el efecto de la ingeniería de instrucciones. Examina las estadísticas correspondientes a cada plantilla de mensajes para comprender cómo las diferencias en las instrucciones afectan los resultados de la evaluación.

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa y optimiza el diseño de plantillas de mensajes para obtener mejores resultados.

Evalúa y selecciona modelos de LLM con métricas comparativas

Usa el SDK de evaluación rápida para puntuar los modelos de Gemini Pro y Text Bison en un conjunto de datos comparativo y una tarea.

Para ver un ejemplo de extremo a extremo, consulta el notebook Puntuación y selecciona modelos de LLM.

Evalúa y selecciona la configuración de generación del modelo

Usa el SDK de evaluación rápida para ajustar la temperatura de Gemini Pro en una tarea de resumen y evaluar quality, fluency, safety y verbosity.

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa y selecciona la configuración de generación de modelos.

Define tus métricas

Usa el SDK de evaluación rápida para evaluar varias plantillas de mensajes con tus métricas definidas de forma personalizada.

Para obtener un ejemplo de extremo a extremo, consulta el notebook Define tus propias métricas.

Evalúa el uso de herramientas

Usa el SDK de evaluación rápida para definir una función de API y una herramienta para el modelo de Gemini. También puedes usar el SDK para evaluar el uso de herramientas y la calidad de las llamadas a funciones de Gemini.

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa el uso de la herramienta de modelo generativo y las llamadas a funciones.

Evalúa las respuestas generadas de RAG para la búsqueda de respuestas

Usa el SDK de evaluación rápida para evaluar una tarea de búsqueda de respuestas a partir de respuestas generadas por generación aumentada y de recuperación (RAG).

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa las respuestas generadas de RAG para la búsqueda de respuestas.

Evalúa un LLM en Vertex AI Model Registry con un modelo de terceros

Usar AutoSxS para evaluar las respuestas entre dos modelos y determinar la ganadora. Tú Puedes proporcionar las respuestas o generarlas con Vertex AI Batch Predicciones.

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa un LLM en el Vertex AI Model Registry con un modelo de terceros.

Verifica la alineación del autorizador con un conjunto de datos de preferencias humanas

Usa AutoSxS para verificar qué tan bien se alinean las calificaciones del autor con un conjunto de calificaciones manuales que proporciones para una tarea en particular. Determina si AutoSxS es suficiente para tu caso de uso o si necesita más personalización.

Para obtener un ejemplo de extremo a extremo, consulta el notebook Verifica la alineación del autorater con respecto a un conjunto de datos de preferencias humanas.

¿Qué sigue?