Gen AI Evaluation Service 簡介

Vertex AI 提供預測式 AI 和生成式 AI 模型的模型評估指標。本頁提供生成式 AI 模型評估服務總覽。如要評估預測型 AI 模型,請參閱「Vertex AI 的模型評估」。

本頁提供 Gen AI Evaluation Service 總覽,說明如何使用這項服務,依據自己的標準評估生成式模型和應用程式。本文涵蓋下列主題:

下圖概略說明評估生成模型的整體工作流程:

您可以使用 Vertex AI 的 Gen AI 評估服務,依據自己的標準評估任何生成式模型或應用程式。公開排行榜提供一般洞察資訊,而評估服務則可協助您瞭解模型在特定工作和資料上的成效。

在生成式 AI 開發生命週期中,評估是至關重要的步驟,包括模型選取、提示工程和模型自訂。這項服務已整合至 Vertex AI,方便您視需要啟動及重複使用評估。

Gen AI Evaluation Service 功能

Gen AI Evaluation Service 可協助您完成下列工作:

  • 模型選擇:根據基準測試結果和模型在特定資料上的成效,為工作選擇最佳預先訓練模型。
  • 生成設定:調整模型參數 (例如溫度),根據需求最佳化輸出內容。
  • 提示工程:設計有效的提示和提示範本,引導模型產生您偏好的行為和回覆。
  • 改善及保護微調作業:微調模型以提升特定用途的效能,同時避免偏見或不良行為。
  • RAG 最佳化:選取最有效的檢索增強生成 (RAG) 架構,提升應用程式效能。
  • 遷移:持續評估及提升 AI 解決方案的成效,在較新的模型能為特定用途帶來明顯優勢時,就遷移至這些模型。
  • 翻譯 (預覽版):評估模型翻譯的品質。
  • 評估代理程式:使用 Gen AI 評估服務評估代理程式的成效。

評估程序

如要使用 Gen AI Evaluation Service 評估生成式 AI 模型或應用程式,請按照下列步驟操作:

  1. 定義評估指標
    • 根據業務條件調整模型指標。
    • 評估單一模型 (逐點),或比較兩個模型並判斷哪個模型較佳 (逐對)。
    • 納入以運算為基礎的指標,取得更多洞察資料。
  2. 準備評估資料集
    • 提供反映特定用途的資料集。
  3. 執行評估
    • 從頭開始、使用範本或改編現有範例。
    • 定義候選模型,並建立 <abbr data-title="A reusable object in the Vertex AI evaluation service that encapsulates your evaluation logic, including models, metrics, and dataset.">EvalTask</abbr>,透過 Vertex AI 重複使用評估邏輯。
  4. 查看及解讀評估結果
  5. (選用) 評估及提升評估模型的品質:
  6. (選用) 評估生成式 AI 代理程式

評估用途的筆記本

下列 Python 適用的 Vertex AI SDK 筆記本,展示了各種生成式 AI 評估應用實例。

評估模型

評估提示範本

評估生成式 AI 應用程式

評估生成式 AI 虛擬服務專員

自訂指標

其他主題

支援的模型

Vertex AI Gen AI 評估服務支援 Google 基礎模型、第三方模型和開放原始碼模型。您可以直接提供預先產生的預測結果,或自動產生候選模型回覆。下表可協助您為模型選擇合適的整合方式。

模型來源 說明 用途
Google 基礎模型 直接使用 Google 的模型 (例如 Gemini 2.0 Flash) 生成回覆。 想運用 Google 最新模型,但不想管理基礎架構。
Vertex AI Model Registry 使用部署為 Vertex AI Model Registry 中端點的任何模型 (自訂訓練模型、匯入模型)。 用於評估微調模型或在 Vertex AI 中管理的其他模型。
第三方和開放模型 (透過 SDK) 使用各自的 SDK 整合外部模型 API。 模型託管在 Google Cloud 以外的平台,並提供 SDK 供存取。
封裝模型端點 使用 Vertex AI SDK 建立外部模型端點的封裝函式。 適用於可透過 API 端點存取,但沒有直接 SDK 整合的模型。

支援的語言

本節說明模型和翻譯指標支援的語言。

以模型為基準的指標

如果是以 Gemini 模型為準的指標,Gen AI Evaluation Service 支援 Gemini 2.0 Flash 支援的所有輸入語言。不過,非英文輸入內容的評估品質可能不如英文輸入內容。

翻譯指標

如要執行翻譯工作,可以使用下列以模型為準的指標,這些指標支援本節列出的語言:

指標 說明
MetricX 這是一系列以模型為基礎的指標,可比較模型輸出內容與參考內容,評估文字生成工作 (包括翻譯) 的成效。
COMET 訓練多語言機器翻譯評估模型的類神經架構,與人工判斷的翻譯品質高度相關。
  • MetricX

    MetricX支援的語言

    • 南非荷蘭文
    • 阿爾巴尼亞文
    • 阿姆哈拉文
    • 阿拉伯文
    • 亞美尼亞文
    • 亞塞拜然文
    • 巴斯克文
    • 白俄羅斯文
    • 孟加拉文
    • 保加利亞文
    • 緬甸文
    • 加泰隆尼亞文
    • 宿霧文
    • 齊切瓦語
    • 中文
    • 科西嘉文
    • 捷克文
    • 丹麥文
    • 荷蘭文
    • 英文
    • 國際語文
    • 愛沙尼亞文
    • 菲律賓文
    • 芬蘭文
    • 法文
    • 加里西亞文
    • 喬治亞文
    • 德文
    • 希臘文
    • 印度古吉拉特文
    • 海地克里奧文
    • 豪薩文
    • 夏威夷文
    • 希伯來文
    • 北印度文
    • 苗文
    • 匈牙利文
    • 冰島文
    • 伊布文
    • 印尼文
    • 愛爾蘭文
    • 義大利文
    • 日文
    • 爪哇文
    • 卡納達文
    • 哈薩克文
    • 高棉文
    • 韓文
    • 庫德語
    • 吉爾吉斯文
    • 寮文
    • 拉丁文
    • 拉脫維亞文
    • 立陶宛文
    • 盧森堡文
    • 馬其頓文
    • 馬達加斯加文
    • 馬來文
    • 馬拉雅拉姆文
    • 馬耳他文
    • 毛利文
    • 馬拉地文
    • 蒙古文
    • 尼泊爾文
    • 挪威文
    • 普什圖文
    • 波斯文
    • 波蘭文
    • 葡萄牙文
    • 旁遮普文
    • 羅馬尼亞文
    • 俄文
    • 薩摩亞文
    • 蘇格蘭蓋爾文
    • 塞爾維亞文
    • 修納文
    • 信德文
    • 錫蘭文
    • 斯洛伐克文
    • 斯洛維尼亞文
    • 索馬利文
    • 索托文
    • 西班牙文
    • 巽他文
    • 斯瓦希里文
    • 瑞典文
    • 塔吉克文
    • 泰米爾文
    • 泰盧固文
    • 泰文
    • 土耳其文
    • 烏克蘭語
    • 烏都文
    • 烏茲別克文
    • 越南文
    • 威爾斯文
    • 西弗里西亞文
    • 科薩文
    • 意第緒文
    • 約魯巴文
    • 祖魯語
  • COMET

    COMET 支援的語言

    • 南非荷蘭文
    • 阿爾巴尼亞文
    • 阿姆哈拉文
    • 阿拉伯文
    • 亞美尼亞文
    • 阿薩姆文
    • 阿塞拜疆語
    • 巴斯克文
    • 白俄羅斯文
    • 孟加拉文
    • 孟加拉文 (羅馬拼音)
    • 波士尼亞文
    • 布列塔尼語
    • 保加利亞文
    • 緬甸文
    • 緬甸文
    • 加泰隆尼亞文
    • 中文 (簡體)
    • 繁體中文 (台灣)
    • 克羅埃西亞文
    • 捷克文
    • 丹麥文
    • 荷蘭文
    • 英文
    • 國際語文
    • 愛沙尼亞文
    • 菲律賓文
    • 芬蘭文
    • 法文
    • 加里西亞文
    • 喬治亞文
    • 德文
    • 希臘文
    • 古吉拉特文
    • 豪薩文
    • 希伯來文
    • 北印度文
    • 北印度文 (羅馬拼音)
    • 匈牙利文
    • 冰島文
    • 印尼文
    • 愛爾蘭文
    • 義大利文
    • 日文
    • 爪哇文
    • 卡納達文
    • 哈薩克文
    • 高棉文
    • 韓文
    • 庫德文 (庫爾曼吉文)
    • 吉爾吉斯文
    • 寮文
    • 拉丁文
    • 拉脫維亞文
    • 立陶宛文
    • 馬其頓文
    • 馬達加斯加文
    • 馬來文
    • 馬拉雅拉姆文
    • 馬拉地文
    • 蒙古文
    • 尼泊爾文
    • 挪威文
    • 奧里雅語
    • 奧羅莫文
    • 普什圖文
    • 波斯文
    • 波蘭文
    • 葡萄牙文
    • 旁遮普文
    • 羅馬尼亞文
    • 俄文
    • 梵文
    • 蘇格蘭
    • 蓋爾文
    • 塞爾維亞文
    • 信德文
    • 錫蘭文
    • 斯洛伐克文
    • 斯洛維尼亞文
    • 索馬利亞文
    • 西班牙文
    • 巽他文
    • 斯瓦希里文
    • 瑞典文
    • 泰米爾文
    • 泰米爾文 (羅馬拼音)
    • 泰盧固文
    • 泰盧固文 (羅馬拼音)
    • 泰文
    • 土耳其文
    • 烏克蘭語
    • 烏都文
    • 烏都文 (羅馬拼音)
    • 維吾爾文
    • 烏茲別克文
    • 越南文
    • 威爾斯文
    • 西方
    • 弗利然文
    • 科薩文
    • 意第緒語

後續步驟