Questa guida mostra come eseguire una pipeline di valutazione basata sul calcolo per valutare le prestazioni dei modelli di base e dei modelli di AI generativa ottimizzati su Vertex AI. La pipeline valuta il modello utilizzando un insieme di metriche rispetto a un set di dati di valutazione fornito dall'utente. Questa pagina tratta i seguenti argomenti: Il seguente diagramma riassume il flusso di lavoro generale per l'esecuzione di una valutazione basata sul calcolo: Per le funzionalità di valutazione basate sul calcolo più recenti, consulta Definisci le metriche. Per valutare le prestazioni di un modello, fornisci un set di dati di valutazione che contenga coppie di prompt e dati di fatto. Per ogni coppia, il prompt è l'input che vuoi valutare e la risposta basata su dati di fatto è la risposta ideale per quel prompt. Durante la valutazione, il processo passa il prompt di ogni coppia al modello per generare un output. Il processo utilizza quindi l'output generato dal modello e i dati di riferimento corrispondenti per calcolare le metriche di valutazione. Il tipo di metriche utilizzato per la valutazione dipende dall'attività che stai valutando. La tabella seguente mostra le attività supportate e le metriche utilizzate per valutare ciascuna attività: Puoi valutare i seguenti modelli: Il set di dati di valutazione include coppie di prompt e dati di fatto in linea con l'attività che vuoi valutare. Il set di dati deve includere almeno una coppia di prompt e dati di riferimento e almeno 10 coppie per metriche significative. Più esempi fornisci, più significativi saranno i risultati. Il set di dati di valutazione deve essere in formato JSON Lines (JSONL), in cui ogni riga è un oggetto JSON. Ogni oggetto deve contenere un campo La lunghezza massima del token per Puoi creare un nuovo bucket Cloud Storage o utilizzarne uno esistente per archiviare il file del set di dati. Il bucket deve trovarsi nella stessa regione del modello. Quando il bucket è pronto, carica il file del set di dati nel bucket. Puoi eseguire un job di valutazione basato sul calcolo utilizzando la console Google Cloud , l'API REST o l'SDK Vertex AI per Python. La tabella seguente può aiutarti a scegliere l'opzione migliore per il tuo caso d'uso. Utilizza uno dei seguenti metodi per eseguire un job di valutazione del modello.
Per creare un job di valutazione del modello, invia una richiesta
Prima di utilizzare i dati della richiesta,
apporta le seguenti sostituzioni:
Esempio: Esempio: Il job di valutazione non influisce sui deployment esistenti del modello o sulle relative risorse.
Metodo HTTP e URL:
Corpo JSON della richiesta:
Per inviare la richiesta, scegli una di queste opzioni:
Salva il corpo della richiesta in un file denominato
Salva il corpo della richiesta in un file denominato Dovresti ricevere una risposta JSON simile alla seguente. Tieni presente che Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python.
Per saperne di più, consulta la
documentazione di riferimento dell'API Python.
Per creare un job di valutazione del modello utilizzando la console Google Cloud , segui questi passaggi: Puoi trovare i risultati della valutazione nella directory di output di Cloud Storage specificata durante la creazione del job di valutazione. Il file si chiama Per i modelli ottimizzati, puoi anche visualizzare i risultati della valutazione nella console Google Cloud : Nella sezione Vertex AI della console Google Cloud , vai alla pagina Vertex AI Model Registry. Fai clic sul nome del modello per visualizzare le relative metriche di valutazione. Nella scheda Valuta, fai clic sul nome dell'esecuzione della valutazione che vuoi visualizzare.
Come funziona la valutazione dei modelli basata su calcolo
Attività
Metrica
Classificazione
Micro F1, Macro F1, Per classe F1
Riassunto
ROUGE-L
Question answering
Corrispondenza esatta
Generazione di testo
BLEU, ROUGE-L
Modelli supportati
text-bison
: versioni di base e ottimizzate.Prepara e carica il set di dati di valutazione
Formato del set di dati
input_text
con il prompt che vuoi valutare e un campo output_text
con la risposta ideale per quel prompt.input_text
è 8192 e per output_text
è 1024.Carica il set di dati in Cloud Storage
Scegliere un metodo di valutazione
Metodo
Descrizione
Caso d'uso
Google Cloud console
Una GUI (Graphic User Interface) che fornisce un flusso di lavoro guidato e passo passo per la creazione e il monitoraggio dei job di valutazione.
API REST
Un'interfaccia programmatica per la creazione di job di valutazione tramite l'invio di richieste JSON a un endpoint.
SDK Vertex AI Python
Una libreria Python di alto livello che semplifica le interazioni con l'API Vertex AI.
Esegui la valutazione del modello
REST
POST
utilizzando il metodo
pipelineJobs.
us-central1
.
publishers/google/models/MODEL@MODEL_VERSION
publishers/google/models/text-bison@002
projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
projects/123456789012/locations/us-central1/models/1234567890123456789
summarization
question-answering
text-generation
classification
jsonl
. Per scoprire di più su questo parametro, consulta
InputConfig.jsonl
. Per scoprire di più su questo
parametro, consulta
<x0A> InputConfig.e2-highmem-16
. Per un elenco dei
tipi di macchine supportati, vedi
Tipi di macchine.projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
. Se
specifichi questo campo, devi disporre del peering di rete VPC per
Vertex AI. Se non specificato, il job di valutazione non viene sottoposto a peering con alcuna rete.projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY
.
La chiave deve trovarsi nella stessa regione del job di valutazione.POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs
{
"displayName": "PIPELINEJOB_DISPLAYNAME",
"runtimeConfig": {
"gcsOutputDirectory": "gs://OUTPUT_DIR",
"parameterValues": {
"project": "PROJECT_ID",
"location": "LOCATION",
"batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
"batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
"model_name": "MODEL_NAME",
"evaluation_task": "EVALUATION_TASK",
"batch_predict_instances_format": "INSTANCES_FORMAT",
"batch_predict_predictions_format: "PREDICTIONS_FORMAT",
"machine_type": "MACHINE_TYPE",
"service_account": "SERVICE_ACCOUNT",
"network": "NETWORK",
"encryption_spec_key_name": "KEY_NAME"
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}
curl
request.json
,
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"PowerShell
request.json
,
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand ContentpipelineSpec
è stato troncato per risparmiare spazio.
Comando curl di esempio
PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
"displayName": "evaluation-llm-text-generation-pipeline",
"runtimeConfig": {
"gcsOutputDirectory": "'${OUTPUT_DIR}'",
"parameterValues": {
"project": "'${PROJECT_ID}'",
"location": "'${REGION}'",
"batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
"batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
"model_name": "'${MODEL_NAME}'",
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'
Python
Console
ground_truth
.jsonl
.Visualizza i risultati di una valutazione
evaluation_metrics.json
.
Passaggi successivi
Esegui una pipeline di valutazione basata su calcolo
Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.
Ultimo aggiornamento 2025-08-19 UTC.