Exécuter un pipeline d'évaluation basé sur le calcul

Vous pouvez évaluer les performances des modèles de fondation et de vos modèles d'IA générative réglés dans Vertex AI. Les modèles sont évalués avec un ensemble de métriques sur un ensemble de données d'évaluation que vous fournissez. Cette page explique comment fonctionne l'évaluation des modèles basée sur le calcul via le service de pipeline d'évaluation, comment créer et mettre en forme l'ensemble de données d'évaluation, et comment effectuer l'évaluation à l'aide de la console Google Cloud , de l'API Vertex AI ou du SDK Vertex AI pour Python.

Comment fonctionne l'évaluation des modèles basée sur le calcul

Pour évaluer les performances d'un modèle, vous devez d'abord créer un ensemble de données d'évaluation contenant des paires constituées d'une requête et d'une vérité terrain. Pour chaque paire, la requête correspond à l'entrée que vous souhaitez évaluer et la vérité terrain à la réponse idéale pour cette requête. Lors de l'évaluation, la requête de chaque paire de l'ensemble de données d'évaluation est transmise au modèle pour produire un résultat. Les résultats générés par le modèle et la vérité terrain de l'ensemble de données d'évaluation sont utilisés pour calculer les métriques d'évaluation.

Le type des métriques utilisées dépend de la tâche que vous évaluez. Le tableau suivant présente les tâches compatibles et les métriques utilisées pour évaluer chacune d'elles :

Tâche	Métrique
Classification	Micro-F1, Macro-F1, F1 par classe
Synthèse	ROUGE-L
Systèmes de questions-réponses	Correspondance exacte
Génération de texte	BLEU, ROUGE-L

Modèles compatibles

Les modèles suivants peuvent être évalués :

text-bison : versions de base et réglées.
Gemini : toutes les tâches, sauf la classification.

Préparer l'ensemble de données d'évaluation

L'ensemble de données d'évaluation utilisé pour l'évaluation du modèle inclut des paires de requêtes et de vérités terrain qui s'alignent avec la tâche que vous souhaitez évaluer. Votre ensemble de données doit inclure au moins une paire constituée d'une requête et d'une vérité terrain, et au moins 10 paires pour les métriques pertinentes. Plus vous fournissez d'exemples, plus les résultats sont pertinents.

Format de l'ensemble de données

Votre ensemble de données d'évaluation doit être au format JSON Lines (JSONL), chaque ligne contenant une seule paire constituée d'une requête et d'une vérité terrain, respectivement spécifiées dans les champs input_text et output_text. Le champ input_text contient la requête que vous souhaitez évaluer et le champ output_text contient la réponse idéale pour cette requête.

La longueur maximale de jeton pour input_text est de 8 192, et la longueur maximale de jeton pour output_text est de 1 024.

Importer l'ensemble de données d'évaluation dans Cloud Storage

Vous pouvez créer un bucket Cloud Storage ou utiliser un bucket existant pour stocker votre fichier d'ensemble de données. Le bucket doit se trouver dans la même région que le modèle.

Une fois votre bucket prêt, importez-y le fichier d'ensemble de données.

Évaluer des modèles

Vous pouvez évaluer des modèles à l'aide de l'API REST ou de la console Google Cloud .

Autorisations requises pour cette tâche

Pour effectuer cette tâche, vous devez attribuer des rôles Identity and Access Management (IAM) à chacun des comptes de service suivants :

Compte de service	Compte principal par défaut	Description	Rôles
Agent de service Vertex AI	`service-PROJECT_NUMBER@gcp-sa-aiplatform.iam.gserviceaccount.com`	L'agent de service Vertex AI est provisionné automatiquement pour votre projet et se voit attribuer un rôle prédéfini. Toutefois, si une règle d'administration modifie les autorisations par défaut de l'agent de service Vertex AI, vous devez attribuer manuellement le rôle à l'agent de service.	Agent de service Vertex AI (`roles/aiplatform.serviceAgent`)
Compte de service Vertex AI Pipelines	`PROJECT_NUMBER-compute@developer.gserviceaccount.com`	Compte de service qui exécute le pipeline. Par défaut, le compte de service utilisé est le compte de service Compute Engine par défaut. Vous pouvez également utiliser un compte de service personnalisé au lieu du compte de service par défaut.	Utilisateur Vertex AI (`roles/aiplatform.user`) Utilisateur d'objets Storage (`roles/storage.objectUser`)

Selon vos sources de données d'entrée et de sortie, vous devrez peut-être également attribuer des rôles supplémentaires au compte de service Vertex AI Pipelines :

Source de données	Rôle	Où attribuer le rôle
Table BigQuery standard	Éditeur de données BigQuery	Projet exécutant le pipeline
Table BigQuery standard	Lecteur de données BigQuery	Projet auquel la table appartient
Vue BigQuery d'une table BigQuery standard	Éditeur de données BigQuery	Projet exécutant le pipeline
	Lecteur de données BigQuery	Projet auquel la vue appartient
	Lecteur de données BigQuery	Projet auquel la table appartient
Table externe BigQuery, qui comporte un fichier Cloud Storage source	Éditeur de données BigQuery	Projet exécutant le pipeline
	Lecteur de données BigQuery	Projet auquel la table externe appartient
	Lecteur d'objets Storage	Projet auquel le fichier source appartient
Vue BigQuery d'une table externe BigQuery contenant un fichier Cloud Storage source	Éditeur de données BigQuery	Projet exécutant le pipeline
	Lecteur de données BigQuery	Projet auquel la vue appartient
	Lecteur de données BigQuery	Projet auquel la table externe appartient
	Lecteur d'objets Storage	Projet auquel le fichier source appartient
Fichier Cloud Storage	Lecteur de données BigQuery	Projet exécutant le pipeline

REST

Pour créer un job d'évaluation de modèle, envoyez une requête POST avec la méthode pipelineJobs.

Avant d'utiliser les données de requête, effectuez les remplacements suivants :

PROJECT_ID : projet Google Cloud qui exécute les composants du pipeline.
PIPELINEJOB_DISPLAYNAME : nom à afficher pour le job de pipeline.
LOCATION : région où les composants du pipeline s'exécutent. Pour le moment, seule la région us-central1 est compatible.
DATASET_URI : URI Cloud Storage de votre ensemble de données de référence. Vous pouvez spécifier un ou plusieurs URI. Ce paramètre prend en charge les caractères génériques. Pour en savoir plus sur ce paramètre, consultez InputConfig.
OUTPUT_DIR : URI Cloud Storage où stocker les résultats de l'évaluation.
MODEL_NAME : spécifiez un modèle d'éditeur ou une ressource de modèle réglée comme suit :
- Modèle d'éditeur : publishers/google/models/MODEL@MODEL_VERSION
  Exemple : publishers/google/models/text-bison@002
- Modèle réglé : projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
  Exemple : projects/123456789012/locations/us-central1/models/1234567890123456789
Le job d'évaluation n'a aucune incidence sur les déploiements existants du modèle ni sur ses ressources associées.
EVALUATION_TASK : tâche sur laquelle vous souhaitez évaluer le modèle. Le job d'évaluation calcule un ensemble de métriques pertinentes pour cette tâche spécifique. Les valeurs acceptées incluent les suivantes :
- summarization
- question-answering
- text-generation
- classification
INSTANCES_FORMAT : format de votre ensemble de données. Pour le moment, seul le format jsonl est compatible. Pour en savoir plus sur ce paramètre, consultez InputConfig.
PREDICTIONS_FORMAT : format des résultats de l'évaluation. Pour le moment, seul le format jsonl est compatible. Pour en savoir plus sur ce paramètre, consultez InputConfig.
MACHINE_TYPE (facultatif) : type de machine pour l'exécution du job d'évaluation. La valeur par défaut est e2-highmem-16. Pour obtenir la liste des types de machines compatibles, consultez Types de machines.
SERVICE_ACCOUNT (facultatif) : compte de service à utiliser pour exécuter le job d'évaluation. Pour savoir comment créer un compte de service personnalisé, consultez Configurer un compte de service avec des autorisations précises. Si le champ n'est pas spécifié, l'agent de service de code personnalisé Vertex AI est utilisé.
NETWORK (facultatif) : nom complet du réseau Compute Engine auquel appairer le job d'évaluation, au format projects/PROJECT_NUMBER/global/networks/NETWORK_NAME. Si vous spécifiez ce champ, vous devez disposer d'un appairage de réseaux VPC pour Vertex AI. Si le champ n'est pas spécifié, le job d'évaluation n'est appairé à aucun réseau.
KEY_NAME (facultatif) : le nom de la clé de chiffrement gérée par le client (CMEK). Si elle est configurée, les ressources créées par le job d'évaluation sont chiffrées avec. Le nom de la clé doit être au format projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY. La clé doit se trouver dans la même région que le job d'évaluation.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs

Corps JSON de la requête :

{
  "displayName": "PIPELINEJOB_DISPLAYNAME",
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://OUTPUT_DIR",
    "parameterValues": {
      "project": "PROJECT_ID",
      "location": "LOCATION",
      "batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
      "batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
      "model_name": "MODEL_NAME",
      "evaluation_task": "EVALUATION_TASK",
      "batch_predict_instances_format": "INSTANCES_FORMAT",
      "batch_predict_predictions_format: "PREDICTIONS_FORMAT",
      "machine_type": "MACHINE_TYPE",
      "service_account": "SERVICE_ACCOUNT",
      "network": "NETWORK",
      "encryption_spec_key_name": "KEY_NAME"
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"

PowerShell

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante. Notez que pipelineSpec a été tronqué pour gagner de la place.

Réponse

......
.....
 "state": "PIPELINE_STATE_PENDING",
  "labels": {
    "vertex-ai-pipelines-run-billing-id": "1234567890123456789"
  },
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://my-evaluation-bucket/output",
    "parameterValues": {
      "project": "my-project",
      "location": "us-central1",
      "batch_predict_gcs_source_uris": [
        "gs://my-evaluation-bucket/reference-datasets/eval_data.jsonl"
      ],
      "batch_predict_gcs_destination_output_uri": "gs://my-evaluation-bucket/output",
      "model_name": "publishers/google/models/text-bison@002"
    }
  },
  "serviceAccount": "123456789012-compute@developer.gserviceaccount.com",
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1",
  "templateMetadata": {
    "version": "sha256:d4c0d665533f6b360eb474111aa5e00f000fb8eac298d367e831f3520b21cb1a"
  }
}

Exemple de commande curl

PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
  "displayName": "evaluation-llm-text-generation-pipeline",
  "runtimeConfig": {
    "gcsOutputDirectory": "'${OUTPUT_DIR}'",
    "parameterValues": {
      "project": "'${PROJECT_ID}'",
      "location": "'${REGION}'",
      "batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
      "batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
      "model_name": "'${MODEL_NAME}'",
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'

SDK Vertex AI pour Python

Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez Installer le SDK Vertex AI pour Python. Pour en savoir plus, lisez la documentation de référence de l'API SDK Vertex AI pour Python.

import os

from google.auth import default

import vertexai
from vertexai.preview.language_models import (
    EvaluationTextClassificationSpec,
    TextGenerationModel,
)

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")


def evaluate_model() -> object:
    """Evaluate the performance of a generative AI model."""

    # Set credentials for the pipeline components used in the evaluation task
    credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])

    vertexai.init(project=PROJECT_ID, location="us-central1", credentials=credentials)

    # Create a reference to a generative AI model
    model = TextGenerationModel.from_pretrained("text-bison@002")

    # Define the evaluation specification for a text classification task
    task_spec = EvaluationTextClassificationSpec(
        ground_truth_data=[
            "gs://cloud-samples-data/ai-platform/generative_ai/llm_classification_bp_input_prompts_with_ground_truth.jsonl"
        ],
        class_names=["nature", "news", "sports", "health", "startups"],
        target_column_name="ground_truth",
    )

    # Evaluate the model
    eval_metrics = model.evaluate(task_spec=task_spec)
    print(eval_metrics)
    # Example response:
    # ...
    # PipelineJob run completed.
    # Resource name: projects/123456789/locations/us-central1/pipelineJobs/evaluation-llm-classification-...
    # EvaluationClassificationMetric(label_name=None, auPrc=0.53833705, auRoc=0.8...

    return eval_metrics

Console

Pour créer un job d'évaluation de modèle à l'aide de la console Google Cloud , procédez comme suit :

Dans la console Google Cloud , accédez à la page Vertex AI Model Registry.
Accéder à Vertex AI Model Registry
Cliquez sur le nom du modèle que vous souhaitez évaluer.
Dans l'onglet Évaluer, cliquez sur Créer une évaluation et configurez-la comme suit :

Objectif : sélectionnez la tâche à évaluer.
Colonne ou champ cible (classification uniquement) : saisissez la colonne cible pour la prédiction. Exemple : ground_truth.
Chemin source : saisissez ou sélectionnez l'URI de votre ensemble de données d'évaluation.
Format de sortie : saisissez le format des résultats de l'évaluation. Pour le moment, seul le format jsonl est compatible.
Chemin d'accès Cloud Storage : saisissez ou sélectionnez l'URI où stocker les résultats de l'évaluation.
Noms de classe (classification uniquement) : saisissez la liste des noms de classe possibles.
Nombre de nœuds de calcul : saisissez le nombre de nœuds de calcul pour exécuter le job d'évaluation.
Type de machine : sélectionnez le type de machine à utiliser pour exécuter le job d'évaluation.

Cliquez sur Démarrer l'évaluation.

Afficher les résultats de l'évaluation

Vous pouvez trouver les résultats de l'évaluation dans le répertoire de sortie Cloud Storage que vous avez spécifié lors de la création du job d'évaluation. Le fichier se nomme evaluation_metrics.json.

Pour les modèles réglés, vous pouvez également afficher les résultats d'évaluation dans la console Google Cloud .

Dans la section Vertex AI de la console Google Cloud , accédez à la page Vertex AI Model Registry.

Accéder à Vertex AI Model Registry
Cliquez sur le nom du modèle pour afficher ses métriques d'évaluation.
Dans l'onglet Évaluation, cliquez sur le nom de l'exécution d'évaluation que vous souhaitez afficher.

Étapes suivantes

Apprenez-en plus sur l'évaluation de l'IA générative.
Apprenez-en plus sur l'évaluation en ligne avec Gen AI Evaluation Service.
Découvrez comment régler un modèle de fondation.

Exécuter un pipeline d'évaluation basé sur le calcul Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Comment fonctionne l'évaluation des modèles basée sur le calcul

Modèles compatibles

Préparer l'ensemble de données d'évaluation

Format de l'ensemble de données

Importer l'ensemble de données d'évaluation dans Cloud Storage

Évaluer des modèles

Autorisations requises pour cette tâche

REST

curl

PowerShell

Réponse

Exemple de commande curl

SDK Vertex AI pour Python

Console

Afficher les résultats de l'évaluation

Étapes suivantes

Exécuter un pipeline d'évaluation basé sur le calcul