En esta guía, se muestra cómo ejecutar una canalización de evaluación basada en el procesamiento para evaluar el rendimiento de los modelos de base y los modelos de IA generativa ajustados en Vertex AI. La canalización evalúa tu modelo con un conjunto de métricas en función de un conjunto de datos de evaluación que proporcionas. En esta página, se abordan los siguientes temas: En el siguiente diagrama, se resume el flujo de trabajo general para ejecutar una evaluación basada en el cálculo: Para conocer las funciones de evaluación basadas en el cálculo más recientes, consulta Define tus métricas. Para evaluar el rendimiento de un modelo, debes proporcionar un conjunto de datos de evaluación que contenga pares de instrucciones y verdad fundamental. Para cada par, la instrucción es la entrada que deseas evaluar y la verdad fundamental es la respuesta ideal para esa instrucción. Durante la evaluación, el proceso pasa la instrucción de cada par al modelo para generar un resultado. Luego, el proceso usa el resultado generado por el modelo y la verdad fundamental correspondiente para calcular las métricas de evaluación. El tipo de métricas que se usan para la evaluación depende de la tarea que evalúes. En la siguiente tabla, se muestran las tareas admitidas y las métricas usadas para evaluar cada tarea: Puedes evaluar los siguientes modelos: El conjunto de datos de evaluación incluye pares de instrucciones y verdad fundamental que se alinean con la tarea que deseas evaluar. Tu conjunto de datos debe incluir un mínimo de un par de instrucción y verdad fundamental y al menos 10 pares para las métricas significativas. Cuantos más ejemplos proporciones, más significativos serán los resultados. El conjunto de datos de evaluación debe estar en formato líneas JSON (JSONL), en el que cada línea es un objeto JSON. Cada objeto debe contener un campo La longitud máxima del token para Puedes crear un bucket de Cloud Storage nuevo o usar uno existente para almacenar tu archivo de conjunto de datos. El bucket debe estar en la misma región que el modelo. Una vez que tu bucket esté listo, sube tu archivo del conjunto de datos al bucket. Puedes ejecutar un trabajo de evaluación basado en procesamiento con la Google Cloud consola, la API de REST o el SDK de Vertex AI para Python. La siguiente tabla puede ayudarte a elegir la mejor opción para tu caso de uso. Usa uno de los siguientes métodos para ejecutar un trabajo de evaluación del modelo.
Para crear un trabajo de evaluación de modelo, envía una solicitud
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
Ejemplo: Ejemplo: El trabajo de evaluación no afecta ninguna implementación existente del modelo o sus recursos.
Método HTTP y URL:
Cuerpo JSON de la solicitud: Para enviar tu solicitud, elige una de estas opciones: Guarda el cuerpo de la solicitud en un archivo llamado Guarda el cuerpo de la solicitud en un archivo llamado Deberías recibir una respuesta JSON similar a la que se muestra a continuación: Ten en cuenta que Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python.
Para obtener más información, consulta la
documentación de referencia de la API de Python.
Para crear un trabajo de evaluación de modelos con la consola de Google Cloud , sigue estos pasos: Puedes encontrar los resultados de la evaluación en el directorio de salida de Cloud Storage que especificaste cuando creaste el trabajo de evaluación. El archivo se llama Para los modelos ajustados, también puedes ver los resultados de la evaluación en la consola de Google Cloud : En la sección Vertex AI de la Google Cloud consola, ve a la página Vertex AI Model Registry. Haz clic en el nombre del modelo para ver sus métricas de evaluación. En la pestaña Evaluar, haz clic en el nombre de la ejecución de la evaluación que deseas ver.
Cómo funciona la evaluación de modelos basada en procesamiento
Tarea
Métrica
Clasificación
Micro-F1, Macro-F1 y por clase F1
Resúmenes
ROUGE-L
Búsqueda de respuestas
Concordancia exacta
Generación de texto
BLEU, ROUGE-L
Modelos compatibles
text-bison
: Versiones base y ajustadas.Prepara y sube el conjunto de datos de evaluación
Formato del conjunto de datos
input_text
con la instrucción que deseas evaluar y un campo output_text
con la respuesta ideal para esa instrucción.input_text
es 8,192 y la longitud máxima del token para output_text
es 1,024.Sube el conjunto de datos a Cloud Storage
Elige un método de evaluación
Método
Descripción
Caso de uso
Google Cloud console
Una interfaz gráfica de usuario (GUI) que proporciona un flujo de trabajo guiado paso a paso para crear y supervisar trabajos de evaluación.
API de REST
Es una interfaz programática para crear trabajos de evaluación enviando solicitudes JSON a un extremo.
SDK de Vertex AI para Python
Biblioteca de Python de alto nivel que simplifica las interacciones con la API de Vertex AI.
Realiza la evaluación del modelo
REST
POST
con el método pipelineJobs.
us-central1
.
publishers/google/models/MODEL@MODEL_VERSION
publishers/google/models/text-bison@002
projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
projects/123456789012/locations/us-central1/models/1234567890123456789
summarization
question-answering
text-generation
classification
jsonl
. Para obtener más información sobre este parámetro, consulta InputConfig.jsonl
. Para obtener más información sobre este parámetro, consulta InputConfig.e2-highmem-16
. Para obtener una lista de los tipos de máquinas compatibles, consulta Tipos de máquinas.projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
. Si especificas este campo, debes tener un intercambio de tráfico entre redes de VPC para Vertex AI. Si no se especifica, el trabajo de evaluación no intercambia tráfico con ninguna red.projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY
.
La clave debe estar en la misma región que el trabajo de evaluación.POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs
{
"displayName": "PIPELINEJOB_DISPLAYNAME",
"runtimeConfig": {
"gcsOutputDirectory": "gs://OUTPUT_DIR",
"parameterValues": {
"project": "PROJECT_ID",
"location": "LOCATION",
"batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
"batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
"model_name": "MODEL_NAME",
"evaluation_task": "EVALUATION_TASK",
"batch_predict_instances_format": "INSTANCES_FORMAT",
"batch_predict_predictions_format: "PREDICTIONS_FORMAT",
"machine_type": "MACHINE_TYPE",
"service_account": "SERVICE_ACCOUNT",
"network": "NETWORK",
"encryption_spec_key_name": "KEY_NAME"
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}
curl
request.json
y ejecuta el siguiente comando:curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"PowerShell
request.json
y ejecuta el siguiente comando:$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand ContentpipelineSpec
se truncó para ahorrar espacio.
Ejemplo del comando curl
PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
"displayName": "evaluation-llm-text-generation-pipeline",
"runtimeConfig": {
"gcsOutputDirectory": "'${OUTPUT_DIR}'",
"parameterValues": {
"project": "'${PROJECT_ID}'",
"location": "'${REGION}'",
"batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
"batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
"model_name": "'${MODEL_NAME}'",
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'
Python
Console
ground_truth
.jsonl
.Visualiza los resultados de la evaluación
evaluation_metrics.json
.
¿Qué sigue?
Ejecuta una canalización de evaluación basada en procesamiento
Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2025-08-19 (UTC)