Descripción general del servicio de evaluación de IA generativa

En esta página, se proporciona una descripción general del servicio de evaluación de IA generativa, que te permite evaluar el rendimiento de los modelos en casos de uso específicos. También puedes referirte a la evaluación como observabilidad del rendimiento de un modelo. El servicio de evaluación de la IA generativa te permite supervisar el rendimiento del modelo en diferentes condiciones y proporciona estadísticas que te ayudan a optimizar el modelo en función de tu caso de uso específico.

Las tablas de clasificación pueden proporcionar métricas sobre el rendimiento general de tu modelo, pero no sobre su rendimiento en casos de uso específicos. Cuando desarrollas modelos de lenguaje grande (LLM), es importante evaluar tu modelo con criterios específicos de tu caso de uso.

Las evaluaciones te ayudan a garantizar que los modelos puedan adaptarse a los requisitos específicos del dominio de diferentes usuarios. Cuando evalúas los modelos con comparativas y objetivos definidos por el usuario, puedes aplicar la ingeniería de instrucciones y el ajuste de modelos para ajustarte mejor a las empresas a las que prestas servicios. Estas evaluaciones se usan para guiar el desarrollo y la mejora de los modelos y, al mismo tiempo, garantizar que los modelos sean útiles, seguros y eficaces para tus usuarios.

Casos prácticos de ejemplo

Evalúas los modelos de IA generativa para proporcionar una comparativa para el rendimiento del modelo y guiar el desarrollo y el perfeccionamiento estratégicos de los modelos y las aplicaciones. Este proceso ayuda a garantizar que los modelos de IA generativa se ajustan a las necesidades de tu empresa. La evaluación del modelo proporciona diferentes beneficios para las diferentes fases de desarrollo. En el caso de la producción previa, puedes usar la evaluación de modelos para seleccionar un modelo y personalizarlo. Durante la producción, puedes supervisar el rendimiento del modelo para garantizar que sean eficaces.

La evaluación de la IA generativa se puede aplicar a una variedad de situaciones de casos de uso, incluidas las siguientes:

  • Selecciona modelos previamente entrenados: elige un modelo previamente entrenado para una tarea o aplicación específica mediante la evaluación del rendimiento del modelo en las tareas de comparativas asociadas.
  • Establece la configuración de la generación de modelos: Optimiza los ajustes de los parámetros de generación de modelos, como temperature, que puede mejorar el rendimiento de las tareas.
  • Ingeniería de instrucciones con una plantilla: Diseña instrucciones más eficaces que generen resultados de mayor calidad, lo que mejora la interacción con el modelo.
  • Mejora y protege el ajuste: Ajusta los procesos para mejorar el rendimiento del modelo y, al mismo tiempo, evitar sesgos o comportamientos no deseados.

Para obtener más información sobre los modelos de lenguaje generativo, consulta Notebooks de evaluación.

Servicios de evaluación

Vertex AI ofrece dos opciones de servicios para realizar la evaluación en modelos de IA generativa. Elige el servicio que mejor se adapte a tu caso de uso:

Servicio Caso de uso
Evaluación en línea (evaluación rápida) Algunas instancias para evaluar. Flujos de trabajo que requieren iteraciones rápidas.
Evaluación de canalizaciones (AutoSxS y basada en procesamiento) Muchas instancias para evaluar. Flujos de trabajo asíncronos y MLOps Plantillas de evaluación compiladas en Vertex AI Pipelines.

Evaluación rápida

El servicio de evaluación rápida produce una latencia baja y evaluaciones síncronas en pequeños lotes de datos. Puedes realizar evaluaciones a pedido y, también, integrar el servicio en línea con otros servicios de Vertex AI mediante el SDK de Vertex AI para Python. El uso del SDK hace que el servicio en línea se adapte a una variedad de casos de uso.

El servicio en línea es más adecuado para casos de uso que involucran lotes pequeños de datos o cuando debes iterar y experimentar con rapidez.

Evaluación de canalizaciones: AutoSxS y basado en procesamiento

Los servicios de canalización de evaluación proporcionan opciones de extremo a extremo para evaluar los modelos de IA generativa. Estas opciones usan Vertex AI Pipelines para organizar una serie de pasos relacionados con la evaluación, como generar respuestas del modelo, llamar al servicio de evaluación en línea y calcular las métricas. Estos pasos también se pueden llamar de forma individual en las canalizaciones personalizadas.

Debido a que Vertex AI Pipelines funciona sin servidores, existe una latencia de inicio más alta asociada con el uso de canalizaciones para la evaluación. Por lo tanto, este servicio es más adecuado para trabajos de evaluación más grandes, flujos de trabajo en los que las evaluaciones no se necesitan de inmediato y, además, integración en canalizaciones de MLOps.

Ofrecemos dos canalizaciones de evaluación independientes, de la siguiente manera:

Paradigmas de evaluación

Las evaluaciones de IA generativa funcionan debido a dos paradigmas para evaluar modelos, que incluyen los siguientes:

Por puntos

La evaluación por puntos evalúa el rendimiento de un solo modelo. Te ayuda a comprender el rendimiento del modelo en una tarea específica, como summarization o una dimensión, como instruction following. El proceso de evaluación incluye los siguientes pasos:

  1. Los resultados previstos se producen a partir del modelo según la instrucción de entrada.
  2. La evaluación se realiza en función de los resultados generados.

Según el método de evaluación, es posible que se requieran pares de entrada y salida, y la verdad fundamental. Cuando la verdad fundamental está disponible, los resultados del modelo se evalúan en función de qué tan bien se ajustan los resultados a los resultados esperados. Para obtener más información, consulta Ejecuta la evaluación basada en procesamiento. Cuando se usa sin verdad fundamental, la evaluación se basa en la respuesta del modelo a los mensajes de entrada. También se usa un modelo de evaluador automático independiente. Para obtener más información, consulta Ejecuta la evaluación de AutoSxS (evaluación basada en modelos en pares) para producir métricas personalizadas según la naturaleza de la tarea. Por ejemplo, puedes usar coherence y relevance en text generation o accuracy en summarization.

Este paradigma permite comprender las capacidades de un modelo para generar contenido, lo que proporciona estadísticas sobre las fortalezas y las áreas del modelo que se deben mejorar en un contexto independiente, sin necesidad de una comparación directa con otro modelo.

Por pares

La evaluación por pares se realiza mediante la comparación de las predicciones de dos modelos. Tienes un modelo A que se evaluará según un modelo B, el modelo de referencia del modelo de base. Debes proporcionar mensajes de entrada que representen el dominio de entrada que se usa para la comparación de los modelos. Dada la misma solicitud de entrada, la comparación en paralelo especifica qué predicción del modelo se prefiere según tus criterios de comparación. win rate captura los resultados finales de la evaluación. Este paradigma también puede funcionar sin la necesidad de hacer referencia a los datos de verdad fundamental.

Métodos de evaluación

Existen dos categorías de métricas basadas en el método de evaluación, que incluyen lo siguiente:

Métricas basadas en procesamiento

Las métricas basadas en procesamiento comparan si los resultados generados por LLM son coherentes con un conjunto de datos de verdad fundamental de pares de entrada y salida. Las métricas de uso frecuente se pueden clasificar en los siguientes grupos:

  • Métricas basadas en léxicos: Usa las matemáticas para calcular las similitudes de strings entre los resultados generados por LLM y la verdad fundamental, como Exact Match y ROUGE.
  • Métricas basadas en recuentos: Agrega la cantidad de filas que alcanzan o pierden ciertas etiquetas de verdad fundamental, como F1-score, Accuracy y Tool Name Match.
  • Métricas basadas en incorporaciones: Calcula la distancia entre los resultados generados por LLM y la verdad fundamental en el espacio de incorporaciones, lo que refleja su nivel de similitud.

En el servicio de evaluación de IA generativa, puedes usar métricas basadas en procesamiento a través de la canalización y el SDK de Python de evaluación rápida. La evaluación basada en procesamiento puede realizarse solo en casos de uso por puntos. Sin embargo, puedes comparar directamente las puntuaciones de las métricas de dos modelos para obtener una comparación en pares.

Métricas basadas en modelos

Se usa un modelo de evaluador automático para generar métricas de evaluación basadas en modelos. Al igual que los evaluadores humanos, el evaluador automático realiza evaluaciones complejas y matizadas. Los autores intentan aumentar la evaluación humana, y calibramos su calidad sin conexión con evaluadores humanos. Al igual que los evaluadores humanos, el autor determina la calidad de las respuestas a través de un resultado de puntuación numérica y proporciona el razonamiento detrás de sus juicios junto con un nivel de confianza. Para obtener más información, consulta Visualiza los resultados de la evaluación.

La evaluación basada en modelos está disponible a pedido y evalúa los modelos de lenguaje con un rendimiento comparable al de los evaluadores humanos. Algunos de los beneficios adicionales de la evaluación basada en modelos son los siguientes:

  • Evalúa modelos de lenguaje natural sin datos de preferencias humanas.
  • Logra una mejor escala, aumenta la disponibilidad y reduce los costos en comparación con la evaluación de modelos de lenguaje con evaluadores humanos.
  • Capturar explicaciones de preferencia y puntuaciones de confianza para lograr la transparencia de calificación.

En este diagrama, se ilustra cómo funciona la evaluación basada en modelos por pares, que puede realizarse en casos de uso por puntos y por pares. Puedes ver cómo el autor realiza la evaluación por pares en el servicio de canalización de evaluación, AutoSxS.

Descripción general de cómo funciona AutoSxS

¿Qué sigue?