本指南說明如何執行以運算為基礎的評估管道,評估基礎模型和微調生成式 AI 模型在 Vertex AI 上的效能。這個管道會根據您提供的評估資料集,使用一組指標評估模型。 本頁面涵蓋下列主題: 下圖概略說明執行以運算為基礎的評估作業的整體工作流程: 如要瞭解最新的運算式評估功能,請參閱「定義指標」。 如要評估模型效能,請提供內含提示與真值組合的評估資料集。在每個組合中,提示是您要評估的輸入內容,基準真相則是該提示的理想回覆。 在評估期間,程序會將每對提示傳遞至模型,以生成輸出內容。接著,這項程序會使用模型生成的輸出內容和對應的基準真相,計算評估指標。 用於評估的指標類型取決於您要評估的任務。下表列出支援的任務,以及用於評估各項任務的指標: 您可以評估下列模型: 評估資料集包含提示和真值組合,這些與您要評估的任務一致。資料集至少須包含一組提示和真值,如要取得有意義的指標,則至少須包含 10 組。提供的範例越多,結果就越有意義。 評估資料集必須採用 JSON Lines (JSONL) 格式,其中每一行都是 JSON 物件。每個物件都必須包含「 您可以建立新的 Cloud Storage 值區,或使用現有值區儲存資料集檔案。值區必須與模型位於相同區域。 值區準備就緒後,請上傳資料集檔案至值區。 您可以使用 Google Cloud 控制台、REST API 或 Python 適用的 Vertex AI SDK,執行以運算為基礎的評估工作。下表有助於您根據用途選擇最合適的選項。 請使用下列其中一種方法執行模型評估作業。
如要建立模型評估工作,請使用 pipelineJobs 方法傳送
使用任何要求資料之前,請先替換以下項目: 範例: 範例: 評估工作不會影響模型的任何現有部署作業或資源。
HTTP 方法和網址: JSON 要求主體: 如要傳送要求,請選擇以下其中一個選項:
將要求主體儲存在名為
將要求主體儲存在名為 您應該會收到類似如下的 JSON 回應。請注意,為節省空間, 如要瞭解如何安裝或更新 Python 適用的 Vertex AI SDK,請參閱「安裝 Python 適用的 Vertex AI SDK」。
詳情請參閱
Python API 參考說明文件。 如要使用 Google Cloud 控制台建立模型評估工作,請按照下列步驟操作: 您可以在建立評估工作時指定的 Cloud Storage 輸出目錄中,找到評估結果。檔案名稱為 如果是微調模型,您也可以在 Google Cloud 控制台中查看評估結果: 在 Google Cloud 控制台的 Vertex AI 專區中,前往「Vertex AI Model Registry」頁面。 按一下模型名稱,即可查看評估指標。 在「評估」分頁中,按一下要查看的評估執行作業名稱。
運算式模型評估的運作方式
工作
指標
分類
Micro-F1、Macro-F1、各類別的 F1
摘要
ROUGE-L
問題回答
完全比對
文字生成
BLEU、ROUGE-L
支援的模型
text-bison
:基礎和微調版本。準備並上傳評估資料集
資料集格式
input_text
」欄位 (內含要評估的提示) 和「output_text
」欄位 (內含該提示的理想回應)。input_text
的權杖長度上限為 8,192,output_text
的權杖長度上限則為 1,024。將資料集上傳至 Cloud Storage
選擇評估方法
方法
說明
用途
Google Cloud console
圖形使用者介面 (GUI),提供逐步操作的導覽工作流程,方便您建立及監控評估工作。
REST API
程式化介面,可將 JSON 要求傳送至端點,藉此建立評估工作。
Vertex AI SDK for Python
高階 Python 程式庫,可簡化與 Vertex AI API 的互動。
執行模型評估作業
REST
POST
要求。
us-central1
。
publishers/google/models/MODEL@MODEL_VERSION
publishers/google/models/text-bison@002
projects/PROJECT_NUMBER/locations/LOCATION/models/ENDPOINT_ID
projects/123456789012/locations/us-central1/models/1234567890123456789
summarization
question-answering
text-generation
classification
jsonl
。如要進一步瞭解這個參數,請參閱InputConfig。jsonl
。如要進一步瞭解這個參數,請參閱 InputConfig。e2-highmem-16
。如需支援的機器類型清單,請參閱「機器類型」。projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
。如果您指定這個欄位,則必須為 Vertex AI 建立虛擬私有雲網路對等互連。如未指定,評估作業不會與任何網路對等互連。projects/PROJECT_ID/locations/REGION/keyRings/KEY_RING/cryptoKeys/KEY
。
金鑰必須與評估工作位於相同區域。POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs
{
"displayName": "PIPELINEJOB_DISPLAYNAME",
"runtimeConfig": {
"gcsOutputDirectory": "gs://OUTPUT_DIR",
"parameterValues": {
"project": "PROJECT_ID",
"location": "LOCATION",
"batch_predict_gcs_source_uris": ["gs://DATASET_URI"],
"batch_predict_gcs_destination_output_uri": "gs://OUTPUT_DIR",
"model_name": "MODEL_NAME",
"evaluation_task": "EVALUATION_TASK",
"batch_predict_instances_format": "INSTANCES_FORMAT",
"batch_predict_predictions_format: "PREDICTIONS_FORMAT",
"machine_type": "MACHINE_TYPE",
"service_account": "SERVICE_ACCOUNT",
"network": "NETWORK",
"encryption_spec_key_name": "KEY_NAME"
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}
curl
request.json
的檔案中,然後執行下列指令:curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs"PowerShell
request.json
的檔案中,然後執行下列指令:$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/pipelineJobs" | Select-Object -Expand ContentpipelineSpec
已遭截斷。
cURL 指令範例
PROJECT_ID=myproject
REGION=us-central1
MODEL_NAME=publishers/google/models/text-bison@002
TEST_DATASET_URI=gs://my-gcs-bucket-uri/dataset.jsonl
OUTPUT_DIR=gs://my-gcs-bucket-uri/output
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
"https://${REGION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}/pipelineJobs" -d \
$'{
"displayName": "evaluation-llm-text-generation-pipeline",
"runtimeConfig": {
"gcsOutputDirectory": "'${OUTPUT_DIR}'",
"parameterValues": {
"project": "'${PROJECT_ID}'",
"location": "'${REGION}'",
"batch_predict_gcs_source_uris": ["'${TEST_DATASET_URI}'"],
"batch_predict_gcs_destination_output_uri": "'${OUTPUT_DIR}'",
"model_name": "'${MODEL_NAME}'",
}
},
"templateUri": "https://us-kfp.pkg.dev/vertex-evaluation/pipeline-templates/evaluation-llm-text-generation-pipeline/1.0.1"
}'
Python
控制台
ground_truth
。jsonl
。查看評估結果
evaluation_metrics.json
。
後續步驟
執行運算式評估管道
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-08-19 (世界標準時間)。