Vertex AI 提供預測式 AI 和生成式 AI 模型的模型評估指標。本頁提供生成式 AI 模型評估服務總覽。如要評估預測型 AI 模型,請參閱「Vertex AI 的模型評估」。 本頁提供 Gen AI Evaluation Service 總覽,說明如何使用這項服務,依據自己的標準評估生成式模型和應用程式。本文涵蓋下列主題: 下圖概略說明評估生成模型的整體工作流程: 您可以使用 Vertex AI 的 Gen AI 評估服務,依據自己的標準評估任何生成式模型或應用程式。公開排行榜提供一般洞察資訊,而評估服務則可協助您瞭解模型在特定工作和資料上的成效。 在生成式 AI 開發生命週期中,評估是至關重要的步驟,包括模型選取、提示工程和模型自訂。這項服務已整合至 Vertex AI,方便您視需要啟動及重複使用評估。 Gen AI Evaluation Service 可協助您完成下列工作: 如要使用 Gen AI Evaluation Service 評估生成式 AI 模型或應用程式,請按照下列步驟操作: 下列 Python 適用的 Vertex AI SDK 筆記本,展示了各種生成式 AI 評估應用實例。 Vertex AI Gen AI 評估服務支援 Google 基礎模型、第三方模型和開放原始碼模型。您可以直接提供預先產生的預測結果,或自動產生候選模型回覆。下表可協助您為模型選擇合適的整合方式。 本節說明模型和翻譯指標支援的語言。 如果是以 Gemini 模型為準的指標,Gen AI Evaluation Service 支援 Gemini 2.0 Flash 支援的所有輸入語言。不過,非英文輸入內容的評估品質可能不如英文輸入內容。 如要執行翻譯工作,可以使用下列以模型為準的指標,這些指標支援本節列出的語言: MetricX MetricX支援的語言: COMET COMET 支援的語言:
Gen AI Evaluation Service 功能
評估程序
<abbr data-title="A reusable object in the Vertex AI evaluation service that encapsulates your evaluation logic, including models, metrics, and dataset.">EvalTask</abbr>
,透過 Vertex AI 重複使用評估邏輯。
評估用途的筆記本
評估模型
評估提示範本
評估生成式 AI 應用程式
評估生成式 AI 虛擬服務專員
自訂指標
其他主題
支援的模型
模型來源
說明
用途
Google 基礎模型
直接使用 Google 的模型 (例如 Gemini 2.0 Flash) 生成回覆。
想運用 Google 最新模型,但不想管理基礎架構。
Vertex AI Model Registry
使用部署為 Vertex AI Model Registry 中端點的任何模型 (自訂訓練模型、匯入模型)。
用於評估微調模型或在 Vertex AI 中管理的其他模型。
第三方和開放模型 (透過 SDK)
使用各自的 SDK 整合外部模型 API。
模型託管在 Google Cloud 以外的平台,並提供 SDK 供存取。
封裝模型端點
使用 Vertex AI SDK 建立外部模型端點的封裝函式。
適用於可透過 API 端點存取,但沒有直接 SDK 整合的模型。
支援的語言
以模型為基準的指標
翻譯指標
指標
說明
MetricX
這是一系列以模型為基礎的指標,可比較模型輸出內容與參考內容,評估文字生成工作 (包括翻譯) 的成效。
COMET
訓練多語言機器翻譯評估模型的類神經架構,與人工判斷的翻譯品質高度相關。
後續步驟
Gen AI Evaluation Service 簡介
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-08-19 (世界標準時間)。