Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui una pipeline di valutazione basata su calcolo

Puoi valutare le prestazioni dei foundation model e dei tuoi modelli di AI generativa ottimizzati su Vertex AI. I modelli vengono valutati utilizzando un insieme di metriche rispetto a un set di dati di valutazione fornito dall'utente. Questa pagina spiega come funziona la valutazione dei modelli basata sul calcolo tramite il servizio di pipeline di valutazione, come creare e formattare il set di dati di valutazione e come eseguire la valutazione utilizzando la console Google Cloud , l'API Vertex AI o l'SDK Vertex AI per Python.

Come funziona la valutazione dei modelli basata su calcolo

Per valutare le prestazioni di un modello, devi prima creare un set di dati di valutazione che contenga coppie di prompt e dati di fatto. Per ogni coppia, il prompt è l'input che vuoi valutare e la risposta basata su dati di fatto è la risposta ideale per quel prompt. Durante la valutazione, il prompt in ogni coppia del set di dati di valutazione viene passato al modello per produrre un output. L'output generato dal modello e i dati di fatto del set di dati di valutazione vengono utilizzati per calcolare le metriche di valutazione.

Il tipo di metriche utilizzate per la valutazione dipende dall'attività che stai valutando. La tabella seguente mostra le attività supportate e le metriche utilizzate per valutare ogni attività:

Attività	Metrica
Classificazione	Micro F1, Macro F1, F1 per classe
Riassunto	ROUGE-L
Question answering	Corrispondenza esatta
Generazione di testo	BLEU, ROUGE-L

Modelli supportati

La valutazione del modello è supportata per i seguenti modelli:

text-bison: versioni di base e ottimizzate.
Gemini: tutte le attività tranne la classificazione.

Prepara il set di dati di valutazione

Il set di dati di valutazione utilizzato per la valutazione del modello include coppie di prompt e dati di fatto in linea con l'attività che vuoi valutare. Il set di dati deve includere almeno una coppia di prompt e dati di fatto e almeno 10 coppie per metriche significative. Più esempi fornisci, più significativi saranno i risultati.

Formato del set di dati

Il set di dati di valutazione deve essere in formato JSON Lines (JSONL), in cui ogni riga contiene una singola coppia di prompt e dati di riferimento specificata rispettivamente nei campi input_text e output_text. Il campo input_text contiene il prompt che vuoi valutare, mentre il campo output_text contiene la risposta ideale al prompt.

La lunghezza massima del token per input_text è 8192, mentre per output_text è 1024.

Carica il set di dati di valutazione in Cloud Storage

Puoi creare un nuovo bucket Cloud Storage o utilizzarne uno esistente per archiviare il file del set di dati. Il bucket deve trovarsi nella stessa regione del modello.

Quando il bucket è pronto, carica il file del set di dati nel bucket.

Esegui la valutazione del modello

Puoi valutare i modelli utilizzando l'API REST o la console Google Cloud .

Autorizzazioni richieste per questa attività

Per eseguire questa attività, devi concedere i ruoli Identity and Access Management (IAM) a ciascuno dei seguenti service account:

Service account	Entità di servizio predefinita	Descrizione	Ruoli
Vertex AI Service Agent	`service-PROJECT_NUMBER@gcp-sa-aiplatform.iam.gserviceaccount.com`	L'agente di servizio Vertex AI viene sottoposto a provisioning automatico per il tuo progetto e gli viene concesso un ruolo predefinito. Tuttavia, se un criterio dell'organizzazione modifica le autorizzazioni predefinite dell'agente di servizio Vertex AI, devi concedere manualmente il ruolo all'agente di servizio.	Vertex AI Service Agent (`roles/aiplatform.serviceAgent`)
Service account di Vertex AI Pipelines	`PROJECT_NUMBER-compute@developer.gserviceaccount.com`	L'account di servizio che esegue la pipeline. Il service account predefinito utilizzato è l'account di servizio predefinito di Compute Engine. Se vuoi, puoi utilizzare un account di servizio personalizzato anziché quello predefinito.	Utente Vertex AI (`roles/aiplatform.user`) Utente oggetto di archiviazione (`roles/storage.objectUser`)

A seconda delle origini dati di input e output, potresti anche dover concedere ruoli aggiuntivi al service account Vertex AI Pipelines:

Origine dati	Ruolo	Dove concedere il ruolo
Tabella BigQuery standard	Editor dati BigQuery	Progetto che esegue la pipeline
Tabella BigQuery standard	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella
Visualizzazione BigQuery di una tabella BigQuery standard	Editor dati BigQuery	Progetto che esegue la pipeline
	Visualizzatore dati BigQuery	Progetto a cui appartiene la visualizzazione
	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella
Tabella esterna BigQuery con un file Cloud Storage di origine	Editor dati BigQuery	Progetto che esegue la pipeline
	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella esterna
	Storage Object Viewer	Progetto a cui appartiene il file di origine
Vista BigQuery di una tabella esterna BigQuery con un file Cloud Storage di origine	Editor dati BigQuery	Progetto che esegue la pipeline
	Visualizzatore dati BigQuery	Progetto a cui appartiene la visualizzazione
	Visualizzatore dati BigQuery	Progetto a cui appartiene la tabella esterna
	Storage Object Viewer	Progetto a cui appartiene il file di origine
File Cloud Storage	Visualizzatore dati BigQuery	Progetto che esegue la pipeline

REST

Per creare un job di valutazione del modello, invia una richiesta POST utilizzando il metodo pipelineJobs.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

PROJECT_ID: il Google Cloud progetto che esegue i componenti della pipeline.
PIPELINEJOB_DISPLAYNAME: un nome visualizzato per pipelineJob.
LOCATION: la regione in cui eseguire i componenti della pipeline. Al momento è supportato solo us-central1.
DATASET_URI: l'URI Cloud Storage del set di dati di riferimento. Puoi specificare uno o più URI. Questo parametro supporta i caratteri jolly. Per scoprire di più su questo parametro, consulta InputConfig.
OUTPUT_DIR: l'URI Cloud Storage in cui archiviare l'output della valutazione.
MODEL_NAME: specifica una risorsa modello di publisher o un modello ottimizzato come segue:
- Modello del publisher: publishers/google/models/MODEL@MODEL_VERSION
  Esempio: publishers/google/models/text-bison@002
- Modello ottimizzato: projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
  Esempio: projects/123456789012/locations/us-central1/models/1234567890123456789
Il job di valutazione non influisce sui deployment esistenti del modello o sulle relative risorse.
EVALUATION_TASK: l'attività su cui vuoi valutare il modello. Il job di valutazione calcola un insieme di metriche pertinenti per l'attività specifica. I valori accettabili includono:
- summarization
- question-answering
- text-generation
- classification
INSTANCES_FORMAT: il formato del set di dati. Al momento è supportato solo jsonl. Per scoprire di più su questo parametro, consulta InputConfig.
PREDICTIONS_FORMAT: il formato dell'output della valutazione. Al momento è supportato solo jsonl. Per scoprire di più su questo parametro, consulta InputConfig.
MACHINE_TYPE: (facoltativo) Il tipo di macchina per l'esecuzione del job di valutazione. Il valore predefinito è e2-highmem-16. Per un elenco dei tipi di macchine supportati, vedi Tipi di macchine.
SERVICE_ACCOUNT: (facoltativo) il service account da utilizzare per l'esecuzione del job di valutazione. Per scoprire come creare un account di servizio personalizzato, consulta Configurare un account di servizio con autorizzazioni granulari. Se non specificato, viene utilizzato l'agente di servizio del codice personalizzato Vertex AI.
NETWORK: (facoltativo) Il nome completo della rete Compute Engine a cui eseguire il peering del job di valutazione. Il formato del nome della rete è projects/PROJECT_NUMBER/global/networks/NETWORK_NAME. Se specifichi questo campo, devi disporre del peering di rete VPC per Vertex AI. Se non specificato, il job di valutazione non viene sottoposto a peering con alcuna rete.
KEY_NAME: (facoltativo) il nome della chiave di crittografia gestita dal cliente (CMEK). Se configurate, le risorse create dal job di valutazione vengono criptate utilizzando la chiave di crittografia fornita. Il formato del nome della chiave è projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY. La chiave deve trovarsi nella stessa regione del job di valutazione.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs

Corpo JSON della richiesta:

{
  "displayName": "PIPELINEJOB_DISPLAYNAME",
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://OUTPUT_DIR",
    "parameterValues": {
      "project": "PROJECT_ID",
      "location": "LOCATION",
      "batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
      "batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
      "model_name": "MODEL_NAME",
      "evaluation_task": "EVALUATION_TASK",
      "batch_predict_instances_format": "INSTANCES_FORMAT",
      "batch_predict_predictions_format: "PREDICTIONS_FORMAT",
      "machine_type": "MACHINE_TYPE",
      "service_account": "SERVICE_ACCOUNT",
      "network": "NETWORK",
      "encryption_spec_key_name": "KEY_NAME"
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente. Tieni presente che pipelineSpec è stato troncato per risparmiare spazio.

Risposta

......
.....
 "state": "PIPELINE_STATE_PENDING",
  "labels": {
    "vertex-ai-pipelines-run-billing-id": "1234567890123456789"
  },
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://my-evaluation-bucket/output",
    "parameterValues": {
      "project": "my-project",
      "location": "us-central1",
      "batch_predict_gcs_source_uris": [
        "gs://my-evaluation-bucket/reference-datasets/eval_data.jsonl"
      ],
      "batch_predict_gcs_destination_output_uri": "gs://my-evaluation-bucket/output",
      "model_name": "publishers/google/models/text-bison@002"
    }
  },
  "serviceAccount": "123456789012-compute@developer.gserviceaccount.com",
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1",
  "templateMetadata": {
    "version": "sha256:d4c0d665533f6b360eb474111aa5e00f000fb8eac298d367e831f3520b21cb1a"
  }
}

Comando curl di esempio

PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
  "displayName": "evaluation-llm-text-generation-pipeline",
  "runtimeConfig": {
    "gcsOutputDirectory": "'${OUTPUT_DIR}'",
    "parameterValues": {
      "project": "'${PROJECT_ID}'",
      "location": "'${REGION}'",
      "batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
      "batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
      "model_name": "'${MODEL_NAME}'",
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'

Python

Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.

import os

from google.auth import default

import vertexai
from vertexai.preview.language_models import (
    EvaluationTextClassificationSpec,
    TextGenerationModel,
)

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")


def evaluate_model() -> object:
    """Evaluate the performance of a generative AI model."""

    # Set credentials for the pipeline components used in the evaluation task
    credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])

    vertexai.init(project=PROJECT_ID, location="us-central1", credentials=credentials)

    # Create a reference to a generative AI model
    model = TextGenerationModel.from_pretrained("text-bison@002")

    # Define the evaluation specification for a text classification task
    task_spec = EvaluationTextClassificationSpec(
        ground_truth_data=[
            "gs://cloud-samples-data/ai-platform/generative_ai/llm_classification_bp_input_prompts_with_ground_truth.jsonl"
        ],
        class_names=["nature", "news", "sports", "health", "startups"],
        target_column_name="ground_truth",
    )

    # Evaluate the model
    eval_metrics = model.evaluate(task_spec=task_spec)
    print(eval_metrics)
    # Example response:
    # ...
    # PipelineJob run completed.
    # Resource name: projects/123456789/locations/us-central1/pipelineJobs/evaluation-llm-classification-...
    # EvaluationClassificationMetric(label_name=None, auPrc=0.53833705, auRoc=0.8...

    return eval_metrics

Console

Per creare un job di valutazione del modello utilizzando la console Google Cloud , segui questi passaggi:

Nella console Google Cloud , vai alla pagina Vertex AI Model Registry.
Vai a Vertex AI Model Registry
Fai clic sul nome del modello che vuoi valutare.
Nella scheda Valuta, fai clic su Crea valutazione e configura come segue:

Obiettivo: seleziona l'attività che vuoi valutare.
Colonna o campo di destinazione: (solo classificazione) inserisci la colonna di destinazione per la previsione. Esempio: ground_truth.
Percorso di origine: inserisci o seleziona l'URI del set di dati di valutazione.
Formato di output: inserisci il formato dell'output della valutazione. Al momento è supportato solo jsonl.
Percorso Cloud Storage: inserisci o seleziona l'URI in cui archiviare l'output di valutazione.
Nomi delle classi: (solo classificazione) inserisci l'elenco dei possibili nomi delle classi.
Numero di nodi di computing: inserisci il numero di nodi di computing da eseguire il job di valutazione.
Tipo di macchina: seleziona un tipo di macchina da utilizzare per l'esecuzione del job di valutazione.

Fai clic su Inizia valutazione.

Visualizza i risultati di una valutazione

Puoi trovare i risultati della valutazione nella directory di output di Cloud Storage che hai specificato durante la creazione del job di valutazione. Il file si chiama evaluation_metrics.json.

Per i modelli ottimizzati, puoi anche visualizzare i risultati della valutazione nella console Google Cloud :

Nella sezione Vertex AI della console Google Cloud , vai alla pagina Vertex AI Model Registry.

Vai a Vertex AI Model Registry
Fai clic sul nome del modello per visualizzare le relative metriche di valutazione.
Nella scheda Valuta, fai clic sul nome dell'esecuzione della valutazione che vuoi visualizzare.

Passaggi successivi

Scopri di più sulla valutazione dell'AI generativa.
Scopri di più sulla valutazione online con Gen AI Evaluation Service.
Scopri come ottimizzare un modello di base.