Notebooks de evaluación

Proporcionamos varios ejemplos de cómo puedes usar el SDK de evaluación rápida para realizar evaluaciones en tus modelos de IA generativa.

Evalúa tus modelos en tiempo real

El servicio de evaluación rápida de Vertex AI te permite evaluar los modelos de IA generativa en tiempo real. Para aprender a usar la evaluación rápida, consulta Ejecuta una evaluación rápida.

Si deseas ver un ejemplo de extremo a extremo, consulta el notebook de Colab del SDK de Vertex AI para Python con una evaluación rápida.

Evalúa y optimiza el diseño de la plantilla de instrucciones

Usa el SDK de evaluación rápida para evaluar el efecto de la ingeniería de instrucciones. Examina las estadísticas correspondientes a cada plantilla de mensajes para comprender cómo las diferencias en las instrucciones afectan los resultados de la evaluación.

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa y optimiza el diseño de plantillas de mensajes para obtener mejores resultados.

Evalúa y selecciona modelos de LLM con métricas comparativas

Usa el SDK de evaluación rápida para puntuar los modelos de Gemini Pro y Text Bison en un conjunto de datos comparativo y una tarea.

Para ver un ejemplo de extremo a extremo, consulta el notebook Puntuación y selecciona modelos de LLM.

Evalúa y selecciona la configuración de generación del modelo

Usa el SDK de evaluación rápida para ajustar la temperatura de Gemini Pro en una tarea de resumen y evaluar quality, fluency, safety y verbosity.

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa y selecciona la configuración de generación de modelos.

Define tus métricas

Usa el SDK de evaluación rápida para evaluar varias plantillas de mensajes con tus métricas definidas de forma personalizada.

Para obtener un ejemplo de extremo a extremo, consulta el notebook Define tus propias métricas.

Evalúa el uso de herramientas

Usa el SDK de evaluación rápida para definir una función de API y una herramienta para el modelo de Gemini. También puedes usar el SDK para evaluar el uso de herramientas y la calidad de las llamadas a funciones de Gemini.

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa el uso de la herramienta de modelo generativo y las llamadas a funciones.

Evalúa las respuestas generadas de RAG para la búsqueda de respuestas

Usa el SDK de evaluación rápida para evaluar una tarea de búsqueda de respuestas a partir de respuestas generadas por generación aumentada y de recuperación (RAG).

Para ver un ejemplo de extremo a extremo, consulta el notebook Evalúa las respuestas generadas de RAG para la búsqueda de respuestas.

¿Qué sigue?