Vertex AI 的 Gen AI Evaluation Service 可用來評估任何生成式模型或應用程式,並依據您的評估標準,判斷評估結果的品質。
排行榜和報表可提供整體模型成效的洞察資料,但無法揭露模型如何處理您的特定需求。Gen AI Evaluation Service 可協助您定義自己的評估標準,確保清楚瞭解生成式 AI 模型和應用程式是否符合您的專屬用途。
在生成式 AI 開發過程的每個步驟 (包括模型選取、提示工程和模型自訂),評估都非常重要。Vertex AI 整合了生成式 AI 評估功能,可協助您視需要啟動及重複使用評估。
Gen AI Evaluation Service 功能
Gen AI Evaluation Service 可協助您完成下列工作:
模型選擇:根據基準測試結果和模型在特定資料上的成效,為工作選擇最佳預先訓練模型。
生成設定:調整模型參數 (例如隨機性參數),根據需求最佳化輸出內容。
提示工程:設計有效的提示和提示範本,引導模型產生您偏好的行為和回覆。
改善及保護微調作業:微調模型以提升特定用途的效能,同時避免偏見或不良行為。
RAG 最佳化:選取最有效的檢索增強生成 (RAG) 架構,提升應用程式效能。
遷移:持續評估及提升 AI 解決方案的成效,在較新的模型能為特定用途帶來明顯優勢時,就遷移至這些模型。
翻譯 (預覽版):評估模型翻譯的品質。
評估代理程式:使用 Gen AI 評估服務評估代理程式的成效。
評估程序
您可以按照下列步驟,使用 Gen AI Evaluation Service 依據評估標準評估任何 Gen AI 模型或應用程式:
-
瞭解如何根據業務條件調整以模型為準的指標。
評估單一模型 (逐點),或比較 2 個模型時判斷勝出者 (逐對)。
納入以運算為基礎的指標,取得更多洞察資料。
-
- 提供反映特定用途的資料集。
-
從頭開始、使用範本或改編現有範例。
定義候選模型,並建立
EvalTask
,透過 Vertex AI 重複使用評估邏輯。
(選用) 評估及提升評估模型品質:
使用進階提示工程技術自訂評估模型。
使用系統指示和評估模型設定,提高評估結果的一致性,並減少評估模型偏誤。
(選用) 評估生成式 AI 代理程式。
評估用途的筆記本
下表列出各種生成式 AI 評估用途的 Vertex AI SDK for Python 筆記本:
用途 | 說明 | 筆記本連結 |
---|---|---|
評估模型 | 快速入門導覽課程:Gen AI 評估服務 SDK 簡介。 | 開始使用 Gen AI Evaluation Service SDK |
評估並選取適合您工作的第一方 (1P) 基礎模型。 | 評估及選取適合您工作的第一方 (1P) 基礎模型 | |
評估及選取生成式 AI 模型設定: 在摘要工作上調整 Gemini 模型的溫度、輸出權杖限制、安全性設定和其他模型生成設定,並比較不同模型設定在多項指標上的評估結果。 |
比較 Gemini 的不同模型參數設定 | |
在 Vertex AI Model Garden 中評估第三方 (3P) 模型。 這本筆記本提供完整指南,說明如何使用 Gen AI 評估服務 SDK,評估 Google 的 Gemini 模型和第三方語言模型。瞭解如何使用各種評估指標和技術,評估及比較不同來源的模型,包括開放和封閉模型、模型端點和第三方用戶端程式庫。實際進行受控實驗,並分析各種工作中的模型成效,累積實務經驗。 |
使用 Gen AI Evaluation Service SDK 評估 Vertex AI Studio、Model Garden 和 Model Registry 中的模型 | |
使用 Gen AI Evaluation Service SDK,從 PaLM 遷移至 Gemini 模型。 本筆記本將引導您使用多個評估指標評估 PaLM 和 Gemini 基礎模型,協助您決定是否要從一個模型遷移至另一個模型。我們會將這些指標視覺化,深入瞭解各模型的優缺點,協助您根據特定用途的需求做出明智決策。 |
比較並從 PaLM 遷移至 Gemini 模型 | |
評估翻譯模型。 這個筆記本說明如何使用 Vertex AI SDK 的 Gen AI 評估服務,透過 BLEU、MetricX 和 COMET 評估大型語言模型 (LLM) 回覆的翻譯品質。 |
評估翻譯模型 | |
評估提示範本 | 使用 Gen AI Evaluation Service SDK 進行提示工程和提示評估。 | 評估及最佳化提示範本設計,以獲得更出色的結果 |
評估生成式 AI 應用程式 | 評估 Gemini 模型工具使用和函式呼叫功能。 | 評估 Gemini 模型工具的使用情形 |
使用 Gen AI Evaluation Service SDK,評估檢索增強生成 (RAG) 解決方案為問答工作生成的答案。 | 評估檢索增強生成 (RAG) 技術生成的答案 | |
使用 Vertex AI Gen AI Evaluation Service 評估 LangChain 聊天機器人。 這個筆記本示範如何使用 Vertex AI Gen AI Evaluation Service SDK,評估 LangChain 對話式聊天機器人。內容涵蓋資料準備、LangChain 鏈結設定、建立自訂評估指標,以及分析結果。本教學課程以食譜建議聊天機器人為例,說明如何透過疊代提示設計來提升成效。 |
評估 LangChain | |
評估生成式 AI 虛擬服務專員 | 評估使用 LangGraph 和 CrewAI 等代理架構建構的代理。 | |
使用 Gen AI 評估服務和 Vertex AI Agent Engine,評估使用代理程式架構建構的代理程式。 | ||
自訂指標 | 使用下列功能,自訂以模型為基礎的指標,並根據特定條件評估生成式 AI 模型:
|
自訂以模型為基礎的指標,評估生成式 AI 模型 |
使用您在本地定義的自訂指標評估生成式 AI 模型,並自備評估模型,執行以模型為基礎的指標評估。 | 使用自訂指標自備自動評估人員 | |
定義自己的運算式自訂指標函式,並搭配 Gen AI Evaluation Service SDK 進行評估。 | 使用自己的計算式自訂指標 | |
其他主題 | 生成式 AI 評估服務 SDK 預先發布版至正式發行版遷移指南。 本教學課程將逐步說明如何從預先發布版遷移至最新正式發行版 Vertex AI SDK for Python,以使用生成式 AI 評估服務。本指南也展示如何使用正式發布版 SDK 評估檢索增強生成 (RAG),以及如何使用成對評估比較兩個模型。 |
Gen AI 評估服務 SDK 搶先版至正式版遷移指南 |
支援的機型和語言
Vertex AI Gen AI 評估服務支援 Google 基礎模型、第三方模型和開放原始碼模型。您可以直接提供預先產生的預測結果,或透過下列方式自動產生候選模型回覆:
自動為 Google 的基礎模型 (例如 Gemini 2.0 Flash) 和部署在 Vertex AI Model Registry 中的任何模型生成回覆。
與其他第三方和開放模型的 SDK 文字生成 API 整合。
使用 Vertex AI SDK 包裝其他供應商的模型端點。
如果是以 Gemini 模型為準的指標,Gen AI Evaluation Service 支援 Gemini 2.0 Flash 支援的所有輸入語言。不過,非英文輸入內容的評估品質可能不如英文輸入內容。
Gen AI Evaluation Service 支援下列語言,可做為以模型為基礎的翻譯指標:
MetricX
MetricX支援的語言:南非荷蘭文、阿爾巴尼亞文、阿姆哈拉文、阿拉伯文、亞美尼亞文、亞塞拜然文、巴斯克文、白俄羅斯文、孟加拉文、保加利亞文、緬甸文、加泰隆尼亞文、宿霧文、奇切瓦文、中文、科西嘉文、捷克文、丹麥文、荷蘭文、英文、世界語、愛沙尼亞文、菲律賓文、芬蘭文、法文、加利西亞文、喬治亞文、德文、希臘文、古吉拉特文、海地克里奧文、豪薩文、夏威夷文、希伯來文、印地文、苗文、匈牙利文、冰島文、伊博文、印尼文、愛爾蘭文、義大利文、日文、爪哇文、卡納達文、哈薩克文、高棉文、韓文、庫德文、吉爾吉斯文、寮文、拉丁文、拉脫維亞文、立陶宛文、盧森堡文、馬其頓文、馬達加斯加文、馬來文、馬拉雅拉姆文、馬爾他文、毛利文、馬拉地文、蒙古文、尼泊爾文、挪威文、普什圖文、波斯文、波蘭文、葡萄牙文、旁遮普文、羅馬尼亞文、俄文、薩摩亞文、蘇格蘭蓋爾文、塞爾維亞文、修納文、信德文、僧伽羅文、斯洛伐克文、斯洛維尼亞文、索馬利亞文、索托文、西班牙文、巽他文、史瓦希里文、瑞典文、塔吉克文、泰米爾文、泰盧固文、泰文、土耳其文、烏克蘭文、烏都文、烏茲別克文、越南文、威爾斯文、西弗里斯蘭文、科薩文、意第緒文、約魯巴文、祖魯文。
COMET
COMET支援的語言:南非荷蘭文、阿爾巴尼亞文、阿姆哈拉文、阿拉伯文、亞美尼亞文、阿薩姆文、亞塞拜然文、巴斯克文、白俄羅斯文、孟加拉文、孟加拉文 (羅馬拼音)、波士尼亞文、布列塔尼文、保加利亞文、緬甸文、緬甸文、加泰隆尼亞文、簡體中文、繁體中文、克羅埃西亞文、捷克文、丹麥文、荷蘭文、英文、世界語、愛沙尼亞文、菲律賓文、芬蘭文、法文、加利西亞文、喬治亞文、德文、希臘文、古吉拉特文、豪薩文、希伯來文、印地文、印地文 (羅馬拼音)、匈牙利文、冰島文、印尼文、愛爾蘭文、義大利文、日文、爪哇文、卡納達文、哈薩克文、高棉文、韓文、庫德文 (庫爾曼吉)、吉爾吉斯文、寮文、拉丁文、拉脫維亞文、立陶宛文、馬其頓文、馬達加斯加文、馬來文、馬拉雅拉姆文、馬拉地文、蒙古文、尼泊爾文、挪威文、奧里亞文、奧羅莫文、普什圖文、波斯文、波蘭文、葡萄牙文、旁遮普文、羅馬尼亞文、俄文、梵文、蘇格蘭蓋爾文、塞爾維亞文、信德文、僧伽羅文、斯洛伐克文、斯洛維尼亞文、索馬利亞文、西班牙文、巽他文、史瓦希里文、瑞典文、泰米爾文、泰米爾文 (羅馬拼音)、泰盧固文、泰盧固文 (羅馬拼音)、泰文、土耳其文、烏克蘭文、烏都文、烏都文 (羅馬拼音)、維吾爾文、烏茲別克文、越南文、威爾斯文、西弗里斯蘭文、科薩文、意第緒文。
後續步驟
請嘗試評估快速入門導覽課程。
瞭解如何調整基礎模型。