Se usó la API de Cloud Translation para traducir esta página.

Ejecuta una canalización de evaluación basada en procesamiento

En esta guía, se muestra cómo ejecutar una canalización de evaluación basada en el procesamiento para evaluar el rendimiento de los modelos de base y los modelos de IA generativa ajustados en Vertex AI. La canalización evalúa tu modelo con un conjunto de métricas en función de un conjunto de datos de evaluación que proporcionas.

En esta página, se abordan los siguientes temas:

Cómo funciona la evaluación de modelos basada en procesamiento: Obtén información sobre el proceso de evaluación, que usa instrucciones y verdades fundamentales para calcular métricas.
Prepara y sube el conjunto de datos de evaluación: Comprende el formato JSONL requerido y cómo subir tus datos.
Realiza la evaluación del modelo: Ejecuta un trabajo de evaluación con la consola de Google Cloud , la API de REST o el SDK de Vertex AI para Python.
Visualiza los resultados de la evaluación: Busca e interpreta las métricas de evaluación en Cloud Storage o en la Google Cloud consola.

En el siguiente diagrama, se resume el flujo de trabajo general para ejecutar una evaluación basada en el cálculo:

Para conocer las funciones de evaluación basadas en el cálculo más recientes, consulta Define tus métricas.

Cómo funciona la evaluación de modelos basada en procesamiento

Para evaluar el rendimiento de un modelo, debes proporcionar un conjunto de datos de evaluación que contenga pares de instrucciones y verdad fundamental. Para cada par, la instrucción es la entrada que deseas evaluar y la verdad fundamental es la respuesta ideal para esa instrucción.

Durante la evaluación, el proceso pasa la instrucción de cada par al modelo para generar un resultado. Luego, el proceso usa el resultado generado por el modelo y la verdad fundamental correspondiente para calcular las métricas de evaluación.

El tipo de métricas que se usan para la evaluación depende de la tarea que evalúes. En la siguiente tabla, se muestran las tareas admitidas y las métricas usadas para evaluar cada tarea:

Tarea	Métrica
Clasificación	Micro-F1, Macro-F1 y por clase F1
Resúmenes	ROUGE-L
Búsqueda de respuestas	Concordancia exacta
Generación de texto	BLEU, ROUGE-L

Modelos compatibles

Puedes evaluar los siguientes modelos:

text-bison: Versiones base y ajustadas.
Gemini: Todas las tareas, excepto la clasificación.

Prepara y sube el conjunto de datos de evaluación

El conjunto de datos de evaluación incluye pares de instrucciones y verdad fundamental que se alinean con la tarea que deseas evaluar. Tu conjunto de datos debe incluir un mínimo de un par de instrucción y verdad fundamental y al menos 10 pares para las métricas significativas. Cuantos más ejemplos proporciones, más significativos serán los resultados.

Formato del conjunto de datos

El conjunto de datos de evaluación debe estar en formato líneas JSON (JSONL), en el que cada línea es un objeto JSON. Cada objeto debe contener un campo input_text con la instrucción que deseas evaluar y un campo output_text con la respuesta ideal para esa instrucción.

La longitud máxima del token para input_text es 8,192 y la longitud máxima del token para output_text es 1,024.

Sube el conjunto de datos a Cloud Storage

Puedes crear un bucket de Cloud Storage nuevo o usar uno existente para almacenar tu archivo de conjunto de datos. El bucket debe estar en la misma región que el modelo.

Una vez que tu bucket esté listo, sube tu archivo del conjunto de datos al bucket.

Elige un método de evaluación

Puedes ejecutar un trabajo de evaluación basado en procesamiento con la Google Cloud consola, la API de REST o el SDK de Vertex AI para Python. La siguiente tabla puede ayudarte a elegir la mejor opción para tu caso de uso.

Método	Descripción	Caso de uso
Google Cloud console	Una interfaz gráfica de usuario (GUI) que proporciona un flujo de trabajo guiado paso a paso para crear y supervisar trabajos de evaluación.	Usuarios nuevos que están aprendiendo el flujo de trabajo de evaluación Evaluaciones rápidas y únicas Visualizar la configuración y los resultados sin escribir código
API de REST	Es una interfaz programática para crear trabajos de evaluación enviando solicitudes JSON a un extremo.	Integrar la evaluación de modelos en aplicaciones existentes o flujos de trabajo en varios idiomas Crear herramientas o automatizaciones personalizadas que no se basen en Python
SDK de Vertex AI para Python	Biblioteca de Python de alto nivel que simplifica las interacciones con la API de Vertex AI.	Científicos de datos e ingenieros de AA que trabajan principalmente en entornos de Python (por ejemplo, en notebooks de Jupyter) Automatizar canalizaciones de MLOps y flujos de trabajo de evaluación complejos

Realiza la evaluación del modelo

Usa uno de los siguientes métodos para ejecutar un trabajo de evaluación del modelo.

Permisos necesarios para esta tarea

Para realizar esta tarea, debes otorgar roles de Identity and Access Management (IAM) a cada una de las siguientes cuentas de servicio:

Cuenta de servicio	Principal predeterminada	Descripción	Funciones
Agente de servicio de Vertex AI	`service-PROJECT_NUMBER@gcp-sa-aiplatform.iam.gserviceaccount.com`	El agente de servicio de Vertex AI se aprovisiona automáticamente para tu proyecto y se le otorga un rol predefinido. Sin embargo, si una política de la organización modifica los permisos predeterminados del agente de servicio de Vertex AI, le debes otorgar manualmente el rol al agente de servicio.	Agente de servicio de Vertex AI (`roles/aiplatform.serviceAgent`)
Cuenta de servicio de Vertex AI Pipelines	`PROJECT_NUMBER-compute@developer.gserviceaccount.com`	La cuenta de servicio que ejecuta la canalización La cuenta de servicio predeterminada que se usa es la cuenta de servicio predeterminada de Compute Engine. De manera opcional, puedes usar una cuenta de servicio personalizada en lugar de la cuenta de servicio predeterminada.	Usuario de Vertex AI (`roles/aiplatform.user`) Usuario de objetos de almacenamiento (`roles/storage.objectUser`)

Según tus fuentes de datos de entrada y salida, es posible que también debas otorgarle acceso a roles adicionales a la cuenta de servicio de Vertex AI Pipelines:

Fuente de datos	Rol	Dónde otorgar el rol
Tabla estándar de BigQuery	Editor de datos de BigQuery	Proyecto que ejecuta la canalización
Tabla estándar de BigQuery	Lector de datos de BigQuery	Proyecto al que pertenece la tabla
Vista de BigQuery de una tabla estándar de BigQuery	Editor de datos de BigQuery	Proyecto que ejecuta la canalización
	Lector de datos de BigQuery	Proyecto al que pertenece la vista
	Lector de datos de BigQuery	Proyecto al que pertenece la tabla
Tabla externa de BigQuery que tiene un archivo fuente de Cloud Storage	Editor de datos de BigQuery	Proyecto que ejecuta la canalización
	Lector de datos de BigQuery	Proyecto al que pertenece la tabla externa
	Visualizador de objetos de almacenamiento	Proyecto al que pertenece el archivo fuente
Vista de BigQuery de una tabla externa de BigQuery que tiene un archivo fuente de Cloud Storage	Editor de datos de BigQuery	Proyecto que ejecuta la canalización
	Lector de datos de BigQuery	Proyecto al que pertenece la vista
	Lector de datos de BigQuery	Proyecto al que pertenece la tabla externa
	Visualizador de objetos de almacenamiento	Proyecto al que pertenece el archivo fuente
Archivo de Cloud Storage	Lector de datos de BigQuery	Proyecto que ejecuta la canalización

REST

Para crear un trabajo de evaluación de modelo, envía una solicitud POST con el método pipelineJobs.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

PROJECT_ID: El proyecto Google Cloud que ejecuta los componentes de la canalización.
PIPELINEJOB_DISPLAYNAME: Un nombre visible para el pipelineJob.
LOCATION: Es la región en la que se ejecutarán los componentes de canalización. Por el momento, solo se admite us-central1.
DATASET_URI: Es el URI de Cloud Storage de tu conjunto de datos de referencia. Puedes especificar uno o varios URI. Este parámetro admite comodines. Para obtener más información sobre este parámetro, consulta InputConfig.
OUTPUT_DIR: Es el URI de Cloud Storage para almacenar el resultado de la evaluación.
MODEL_NAME: Especifica un modelo de publicador o un recurso de modelo ajustado de la siguiente manera:
- Modelo de publicador: publishers/google/models/MODEL@MODEL_VERSION
  Ejemplo: publishers/google/models/text-bison@002
- Modelo ajustado: projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
  Ejemplo: projects/123456789012/locations/us-central1/models/1234567890123456789
El trabajo de evaluación no afecta ninguna implementación existente del modelo o sus recursos.
EVALUATION_TASK: La tarea en la que deseas evaluar el modelo. El trabajo de evaluación calcula un conjunto de métricas relevantes para esa tarea específica. Los valores aceptables son los siguientes:
- summarization
- question-answering
- text-generation
- classification
INSTANCES_FORMAT: el formato de tu conjunto de datos. Por el momento, solo se admite jsonl. Para obtener más información sobre este parámetro, consulta InputConfig.
PREDICTIONS_FORMAT: El formato del resultado de la evaluación. Por el momento, solo se admite jsonl. Para obtener más información sobre este parámetro, consulta InputConfig.
MACHINE_TYPE: El tipo de máquina para ejecutar el trabajo de evaluación (opcional). El valor predeterminado es e2-highmem-16. Para obtener una lista de los tipos de máquinas compatibles, consulta Tipos de máquinas.
SERVICE_ACCOUNT: (Opcional) La cuenta de servicio que se usará para ejecutar el trabajo de evaluación. Para obtener información sobre cómo crear una cuenta de servicio personalizada, consulta Configura una cuenta de servicio con permisos detallados. Si no se especifica, se usa el agente de servicio de código personalizado de Vertex AI.
NETWORK: El nombre completamente calificado de la red de Compute Engine para intercambiar tráfico con el trabajo de evaluación (opcional). El formato del nombre de la red es projects/PROJECT_NUMBER/global/networks/NETWORK_NAME. Si especificas este campo, debes tener un intercambio de tráfico entre redes de VPC para Vertex AI. Si no se especifica, el trabajo de evaluación no intercambia tráfico con ninguna red.
KEY_NAME: El nombre de la clave de encriptación administrada por el cliente (CMEK) (opcional). Si se configura, los recursos que creó el trabajo de evaluación se encriptan con la clave de encriptación proporcionada. El formato del nombre de la clave es projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY. La clave debe estar en la misma región que el trabajo de evaluación.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs

Cuerpo JSON de la solicitud:

{
  "displayName": "PIPELINEJOB_DISPLAYNAME",
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://OUTPUT_DIR",
    "parameterValues": {
      "project": "PROJECT_ID",
      "location": "LOCATION",
      "batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
      "batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
      "model_name": "MODEL_NAME",
      "evaluation_task": "EVALUATION_TASK",
      "batch_predict_instances_format": "INSTANCES_FORMAT",
      "batch_predict_predictions_format: "PREDICTIONS_FORMAT",
      "machine_type": "MACHINE_TYPE",
      "service_account": "SERVICE_ACCOUNT",
      "network": "NETWORK",
      "encryption_spec_key_name": "KEY_NAME"
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Nota: Con el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login, o a través del uso de Cloud Shell, que accede de forma automática a la CLI de gcloud. Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"

PowerShell

Nota: En el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación: Ten en cuenta que pipelineSpec se truncó para ahorrar espacio.

Respuesta

......
.....
 "state": "PIPELINE_STATE_PENDING",
  "labels": {
    "vertex-ai-pipelines-run-billing-id": "1234567890123456789"
  },
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://my-evaluation-bucket/output",
    "parameterValues": {
      "project": "my-project",
      "location": "us-central1",
      "batch_predict_gcs_source_uris": [
        "gs://my-evaluation-bucket/reference-datasets/eval_data.jsonl"
      ],
      "batch_predict_gcs_destination_output_uri": "gs://my-evaluation-bucket/output",
      "model_name": "publishers/google/models/text-bison@002"
    }
  },
  "serviceAccount": "123456789012-compute@developer.gserviceaccount.com",
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1",
  "templateMetadata": {
    "version": "sha256:d4c0d665533f6b360eb474111aa5e00f000fb8eac298d367e831f3520b21cb1a"
  }
}

Ejemplo del comando curl

PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
  "displayName": "evaluation-llm-text-generation-pipeline",
  "runtimeConfig": {
    "gcsOutputDirectory": "'${OUTPUT_DIR}'",
    "parameterValues": {
      "project": "'${PROJECT_ID}'",
      "location": "'${REGION}'",
      "batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
      "batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
      "model_name": "'${MODEL_NAME}'",
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'

Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API de Python.

import os

from google.auth import default

import vertexai
from vertexai.preview.language_models import (
    EvaluationTextClassificationSpec,
    TextGenerationModel,
)

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")


def evaluate_model() -> object:
    """Evaluate the performance of a generative AI model."""

    # Set credentials for the pipeline components used in the evaluation task
    credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])

    vertexai.init(project=PROJECT_ID, location="us-central1", credentials=credentials)

    # Create a reference to a generative AI model
    model = TextGenerationModel.from_pretrained("text-bison@002")

    # Define the evaluation specification for a text classification task
    task_spec = EvaluationTextClassificationSpec(
        ground_truth_data=[
            "gs://cloud-samples-data/ai-platform/generative_ai/llm_classification_bp_input_prompts_with_ground_truth.jsonl"
        ],
        class_names=["nature", "news", "sports", "health", "startups"],
        target_column_name="ground_truth",
    )

    # Evaluate the model
    eval_metrics = model.evaluate(task_spec=task_spec)
    print(eval_metrics)
    # Example response:
    # ...
    # PipelineJob run completed.
    # Resource name: projects/123456789/locations/us-central1/pipelineJobs/evaluation-llm-classification-...
    # EvaluationClassificationMetric(label_name=None, auPrc=0.53833705, auRoc=0.8...

    return eval_metrics

Console

Para crear un trabajo de evaluación de modelos con la consola de Google Cloud , sigue estos pasos:

En la Google Cloud consola, ve a la página Vertex AI Model Registry.
Ir a Vertex AI Model Registry
Haz clic en el nombre del modelo que deseas evaluar.
En la pestaña Evaluar, haz clic en Crear evaluación y establece la siguiente configuración:
- Objetivo: Elige la tarea que deseas evaluar.
- Columna o campo de destino: (Solo clasificación) escribe la columna de destino para la predicción. Ejemplo: ground_truth.
- Ruta de acceso de origen: Escribe o elige el URI del conjunto de datos de evaluación.
- Formato de salida: Escribe el formato del resultado de la evaluación. Por el momento, solo se admite jsonl.
- Ruta de acceso de Cloud Storage: Escribe o elige el URI para almacenar el resultado de la evaluación.
- Nombres de clase: (Solo clasificación) escribe la lista de nombres de clase posibles.
- Cantidad de nodos de procesamiento: Escribe la cantidad de nodos de procesamiento para ejecutar el trabajo de evaluación.
- Tipo de máquina: Elige un tipo de máquina que se usará para ejecutar el trabajo de evaluación.
Haz clic en Iniciar evaluación.

Visualiza los resultados de la evaluación

Puedes encontrar los resultados de la evaluación en el directorio de salida de Cloud Storage que especificaste cuando creaste el trabajo de evaluación. El archivo se llama evaluation_metrics.json.

Para los modelos ajustados, también puedes ver los resultados de la evaluación en la consola de Google Cloud :

En la sección Vertex AI de la Google Cloud consola, ve a la página Vertex AI Model Registry.

Ir a Vertex AI Model Registry
Haz clic en el nombre del modelo para ver sus métricas de evaluación.
En la pestaña Evaluar, haz clic en el nombre de la ejecución de la evaluación que deseas ver.

¿Qué sigue?

Obtén información sobre la evaluación de IA generativa.
Obtén más información sobre la evaluación en línea con el servicio de evaluación de IA generativa.
Obtén información para ajustar un modelo de base.

Ejecuta una canalización de evaluación basada en procesamiento Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Cómo funciona la evaluación de modelos basada en procesamiento

Modelos compatibles

Prepara y sube el conjunto de datos de evaluación

Formato del conjunto de datos

Sube el conjunto de datos a Cloud Storage

Elige un método de evaluación

Realiza la evaluación del modelo

Permisos necesarios para esta tarea

REST

curl

PowerShell

Respuesta

Ejemplo del comando curl

Python

Console

Visualiza los resultados de la evaluación

¿Qué sigue?

Ejecuta una canalización de evaluación basada en procesamiento