本頁面由 Cloud Translation API 翻譯而成。

執行運算式評估管道

您可以在 Vertex AI 上評估基礎模型和微調生成式 AI 模型的效能。系統會根據您提供的評估資料集，使用一組指標評估模型。本頁面說明如何透過評估管道服務，以運算為基礎評估模型，以及如何建立和格式化評估資料集，並使用 Google Cloud 控制台、Vertex AI API 或 Python 適用的 Vertex AI SDK 執行評估。

運算式模型評估的運作方式

如要評估模型成效，請先建立評估資料集，其中包含提示和真值組合。在每個組合中，提示是您要評估的輸入內容，基準真相則是該提示的理想回覆。在評估期間，評估資料集中每個組合的提示會傳給模型以生成內容。模型生成的內容以及評估資料集的基準真相，會用於計算評估指標。

評估時使用的指標類型取決於您要評估的任務。下表列出支援的任務，以及用於評估各項任務的指標：

工作	指標
分類	Micro-F1、Macro-F1、各類別的 F1
摘要	ROUGE-L
問題回答	完全符合
文字生成	BLEU、ROUGE-L

支援的模型

模型評估作業支援下列模型：

text-bison：基礎和微調版本。
Gemini：分類以外的所有工作。

準備評估資料集

用於模型評估的評估資料集包含提示和真值組合，這些組合與您要評估的任務一致。資料集至少須包含 1 組提示和真值，如要取得有意義的指標，則至少須包含 10 組。您提供的範例越多，結果就越有意義。

資料集格式

評估資料集必須採用 JSON Lines (JSONL) 格式，其中每一行都包含一組提示和真值，分別指定於 input_text 和 output_text 欄位。input_text 欄位包含您想評估的提示，output_text 欄位則包含提示的理想回應。

input_text 的權杖長度上限為 8,192，output_text 的權杖長度上限則為 1,024。

將評估資料集上傳至 Cloud Storage

您可以建立新的 Cloud Storage 值區，也可以使用現有值區儲存資料集檔案。值區必須與模型位於相同區域。

值區準備就緒後，請上傳資料集檔案至值區。

執行模型評估作業

您可以使用 REST API 或 Google Cloud 控制台評估模型。

這項工作需要的權限

如要執行這項工作，您必須將 Identity and Access Management (IAM) 角色授予下列每個服務帳戶：

服務帳戶	預設主體	說明	角色
Vertex AI 服務代理	`service-PROJECT_NUMBER@gcp-sa-aiplatform.iam.gserviceaccount.com`	系統會自動為專案佈建 Vertex AI 服務代理，並授予預先定義的角色。不過，如果機構政策修改了 Vertex AI 服務代理的預設權限，您就必須手動將角色授予服務代理。	Vertex AI 服務代理程式 (`roles/aiplatform.serviceAgent`)
Vertex AI Pipelines 服務帳戶	`PROJECT_NUMBER-compute@developer.gserviceaccount.com`	執行管道的服務帳戶。預設使用的服務帳戶是 Compute Engine 預設服務帳戶。您也可以選擇使用自訂服務帳戶，而非預設服務帳戶。	Vertex AI 使用者 (`roles/aiplatform.user`) 儲存空間物件使用者 (`roles/storage.objectUser`)

視輸入和輸出資料來源而定，您可能也需要授予 Vertex AI Pipelines 服務帳戶其他角色：

資料來源	角色	授予角色的位置
標準 BigQuery 資料表	BigQuery 資料編輯者	執行管道的專案
標準 BigQuery 資料表	BigQuery 資料檢視者	資料表所屬的專案
標準 BigQuery 資料表的 BigQuery 檢視畫面	BigQuery 資料編輯者	執行管道的專案
	BigQuery 資料檢視者	檢視表所屬的專案
	BigQuery 資料檢視者	資料表所屬的專案
BigQuery 外部資料表，其中包含來源 Cloud Storage 檔案	BigQuery 資料編輯者	執行管道的專案
	BigQuery 資料檢視者	外部資料表所屬的專案
	Storage 物件檢視者	來源檔案所屬的專案
具有來源 Cloud Storage 檔案的 BigQuery 外部資料表的 BigQuery 檢視區塊	BigQuery 資料編輯者	執行管道的專案
	BigQuery 資料檢視者	檢視表所屬的專案
	BigQuery 資料檢視者	外部資料表所屬的專案
	Storage 物件檢視者	來源檔案所屬的專案
Cloud Storage 檔案	BigQuery 資料檢視者	執行管道的專案

REST

如要建立模型評估工作，請使用 pipelineJobs 方法傳送 POST 要求。

使用任何要求資料之前，請先替換以下項目：

PROJECT_ID：執行管道元件的 Google Cloud 專案。
PIPELINEJOB_DISPLAYNAME：管道作業的顯示名稱。
LOCATION：執行管道元件的區域。目前僅支援 us-central1。
DATASET_URI：參照資料集的 Cloud Storage URI。你可以指定一或多個 URI。這個參數支援萬用字元。如要進一步瞭解這個參數，請參閱 InputConfig。
OUTPUT_DIR：用於儲存評估結果的 Cloud Storage URI。
MODEL_NAME：指定發布商模型或微調模型資源，如下所示：
- 發布端模型： publishers/google/models/MODEL@MODEL_VERSION
  範例：publishers/google/models/text-bison@002
- 微調模型： projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
  範例：projects/123456789012/locations/us-central1/models/1234567890123456789
評估工作不會影響模型的任何現有部署作業或資源。
EVALUATION_TASK：要評估模型效能的任務。評估工作會計算與該特定工作相關的一組指標。可接受的值包括：
- summarization
- question-answering
- text-generation
- classification
INSTANCES_FORMAT：資料集的格式。目前僅支援 jsonl。如要進一步瞭解這個參數，請參閱InputConfig。
PREDICTIONS_FORMAT：評估輸出內容的格式。目前僅支援 jsonl。如要進一步瞭解這個參數，請參閱 InputConfig。
MACHINE_TYPE：(選用) 用於執行評估作業的機器類型。預設值為 e2-highmem-16。如需支援的機器類型清單，請參閱「機器類型」。
SERVICE_ACCOUNT：(選用) 用於執行評估作業的服務帳戶。如要瞭解如何建立自訂服務帳戶，請參閱設定具備精細權限的服務帳戶。如未指定，則會使用 Vertex AI 自訂程式碼服務代理。
NETWORK：(選用) 要與評估作業對等互連的 Compute Engine 網路完整名稱。網路名稱的格式為 projects/PROJECT_NUMBER/global/networks/NETWORK_NAME。如果您指定這個欄位，則必須為 Vertex AI 建立虛擬私有雲網路對等互連。如未指定，評估作業不會與任何網路對等互連。
KEY_NAME：(選用) 客戶自行管理的加密金鑰 (CMEK) 名稱。如果已設定，評估作業建立的資源會使用提供的加密金鑰加密。金鑰名稱的格式為 projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY。金鑰必須與評估工作位於相同區域。

HTTP 方法和網址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs

JSON 要求主體：

{
  "displayName": "PIPELINEJOB_DISPLAYNAME",
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://OUTPUT_DIR",
    "parameterValues": {
      "project": "PROJECT_ID",
      "location": "LOCATION",
      "batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
      "batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
      "model_name": "MODEL_NAME",
      "evaluation_task": "EVALUATION_TASK",
      "batch_predict_instances_format": "INSTANCES_FORMAT",
      "batch_predict_predictions_format: "PREDICTIONS_FORMAT",
      "machine_type": "MACHINE_TYPE",
      "service_account": "SERVICE_ACCOUNT",
      "network": "NETWORK",
      "encryption_spec_key_name": "KEY_NAME"
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}

如要傳送要求，請選擇以下其中一個選項：

curl

注意： 下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI，或使用 Cloud Shell，自動登入 gcloud CLI。您可以執行 gcloud auth list 查看目前有效的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"

PowerShell

注意： 下列指令假設您已執行 gcloud init 或 gcloud auth login，透過使用者帳戶登入 gcloud CLI。您可以執行 gcloud auth list 查看目前有效的帳戶。

將要求主體儲存在名為 request.json 的檔案中，然後執行下列指令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand Content

您應該會收到類似如下的 JSON 回應。請注意，為節省空間，pipelineSpec 已遭截斷。

回應

......
.....
 "state": "PIPELINE_STATE_PENDING",
  "labels": {
    "vertex-ai-pipelines-run-billing-id": "1234567890123456789"
  },
  "runtimeConfig": {
    "gcsOutputDirectory": "gs://my-evaluation-bucket/output",
    "parameterValues": {
      "project": "my-project",
      "location": "us-central1",
      "batch_predict_gcs_source_uris": [
        "gs://my-evaluation-bucket/reference-datasets/eval_data.jsonl"
      ],
      "batch_predict_gcs_destination_output_uri": "gs://my-evaluation-bucket/output",
      "model_name": "publishers/google/models/text-bison@002"
    }
  },
  "serviceAccount": "123456789012-compute@developer.gserviceaccount.com",
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1",
  "templateMetadata": {
    "version": "sha256:d4c0d665533f6b360eb474111aa5e00f000fb8eac298d367e831f3520b21cb1a"
  }
}

cURL 指令範例

PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
  "displayName": "evaluation-llm-text-generation-pipeline",
  "runtimeConfig": {
    "gcsOutputDirectory": "'${OUTPUT_DIR}'",
    "parameterValues": {
      "project": "'${PROJECT_ID}'",
      "location": "'${REGION}'",
      "batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
      "batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
      "model_name": "'${MODEL_NAME}'",
    }
  },
  "templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'

Python

如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK，請參閱「安裝 Python 適用的 Vertex AI SDK」。詳情請參閱 Python API 參考說明文件。

import os

from google.auth import default

import vertexai
from vertexai.preview.language_models import (
    EvaluationTextClassificationSpec,
    TextGenerationModel,
)

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")


def evaluate_model() -> object:
    """Evaluate the performance of a generative AI model."""

    # Set credentials for the pipeline components used in the evaluation task
    credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])

    vertexai.init(project=PROJECT_ID, location="us-central1", credentials=credentials)

    # Create a reference to a generative AI model
    model = TextGenerationModel.from_pretrained("text-bison@002")

    # Define the evaluation specification for a text classification task
    task_spec = EvaluationTextClassificationSpec(
        ground_truth_data=[
            "gs://cloud-samples-data/ai-platform/generative_ai/llm_classification_bp_input_prompts_with_ground_truth.jsonl"
        ],
        class_names=["nature", "news", "sports", "health", "startups"],
        target_column_name="ground_truth",
    )

    # Evaluate the model
    eval_metrics = model.evaluate(task_spec=task_spec)
    print(eval_metrics)
    # Example response:
    # ...
    # PipelineJob run completed.
    # Resource name: projects/123456789/locations/us-central1/pipelineJobs/evaluation-llm-classification-...
    # EvaluationClassificationMetric(label_name=None, auPrc=0.53833705, auRoc=0.8...

    return eval_metrics

控制台

如要使用 Google Cloud 控制台建立模型評估工作，請執行下列步驟：

前往 Google Cloud 控制台的「Vertex AI Model Registry」頁面。
前往 Vertex AI Model Registry
按一下要評估的模型名稱。
在「評估」分頁中，按一下「建立評估」，然後按照下列方式設定：

目標：選取要評估的任務。
目標資料欄或欄位：(僅限分類) 輸入用於預測的目標資料欄。範例：ground_truth。
來源路徑：輸入或選取評估資料集的 URI。
輸出格式：輸入評估結果的輸出格式。目前僅支援 jsonl。
Cloud Storage 路徑：輸入或選取 URI，用於儲存評估輸出內容。
類別名稱：(僅限分類) 輸入可能的類別名稱清單。
運算節點數量：輸入要執行評估工作的運算節點數量。
機器類型：選取要用於執行評估工作的機器類型。

按一下「Start evaluation」(開始評估)。

查看評估結果

您可以在建立評估工作時指定的 Cloud Storage 輸出目錄中，找到評估結果。檔案名稱為 evaluation_metrics.json。

如果是微調模型，您也可以在 Google Cloud 控制台中查看評估結果：

在 Google Cloud 控制台的 Vertex AI 專區中，前往「Vertex AI Model Registry」頁面。

前往 Vertex AI Model Registry
按一下模型名稱，即可查看評估指標。
在「評估」分頁中，按一下要查看的評估執行作業名稱。

後續步驟

瞭解生成式 AI 評估。
瞭解如何使用 Gen AI Evaluation Service 進行線上評估。
瞭解如何調整基礎模型。