本指南說明如何使用 Vertex AI 的「比較」功能評估及疊代提示。「比較」功能可讓您並列查看提示和回覆,瞭解不同的提示、模型或參數設定對模型輸出內容有何影響。
下圖概略說明整體工作流程:
您可以透過下列方法比較提示:
比較方法 | 說明 | 用途 |
---|---|---|
比較新提示 | 比較儲存的提示與未儲存的新提示。 | 快速疊代及測試現有提示的小幅變更,不必儲存每個版本。 |
與其他儲存的提示比較 | 並排比較兩個現有的儲存提示。 | 評估先前儲存的兩個不同且定義明確的提示版本或方法。 |
與實際資料比較 | 比較提示的輸出內容與預先定義的理想答案。 | 針對模型回應與基準或「正確」答案的比較,進行量化評估和評分。 |
比較功能不支援包含媒體的提示詞,或含有多次對話記錄互動的對話提示詞。
事前準備
如要使用比較功能,請按照下列步驟操作:
前往 Google Cloud 控制台的「建立提示」頁面。
選取「比較」。系統隨即會顯示「比較」頁面。
在「比較」功能中建立提示
在「比較」頁面中,您可以先建立並儲存提示,再與其他提示進行比較。
如要建立提示,請按照下列步驟操作:
- 在「New Prompt」(新提示) 欄位中輸入提示。
- 點選「提交提示詞」。模型的回覆會顯示在提示文字下方。
- 按一下「另存為新範本」,系統會顯示「儲存提示」對話方塊。
- 在「提示名稱」欄位中,輸入新提示的名稱。
- 在「Region」(區域) 欄位中選取區域,或保留預設值。
- 如果適用客戶自行管理的加密金鑰 (CMEK),請按照下列步驟操作:
- 選取「客戶管理的加密金鑰 (CMEK)」核取方塊。
- 從「選取 Cloud KMS 金鑰」欄位中選取金鑰。
- 按一下 [儲存]。提示已儲存,可從「比較儲存的提示」頁面選取。
比較新提示
如要比較已儲存的提示與新提示,請按照下列步驟操作:
- 按一下「比較新提示」。「比較」窗格隨即顯示。
- 選用:如要使用其他模型,請按一下「切換模型」。
選用:如要設定輸出內容,請展開「輸出」並設定下列選項:
- 結構化輸出內容:如要讓模型以 JSON 等特定格式輸出內容,請按一下「結構化輸出內容」切換按鈕。選取這個選項後,系統會關閉建立基準選項,因為結構化輸出內容不支援建立基準。
思考預算:將預算變更為下列其中一項:
- 自動:模型會根據提示的複雜程度調整分析。
- 手動:可讓你以權杖手動調整思考預算。
- 關閉:停用思考和預算。
選用:如要新增工具,請展開「工具」,然後選取下列其中一個基礎選項:
- 建立基準:Google:使用 Google 搜尋或 Google 地圖來建立基準。
- 建立基準:您的資料:使用 Vertex AI RAG Engine、Vertex AI Search 或 Elasticsearch 建立基準。選取這個選項後,請選取要使用的資料來源。
選用:如要調整進階設定,請展開「進階」,然後設定下列選項:
- 區域:選取區域。
安全篩選器設定:保留預設的「關閉」,或為下列類別選取「封鎖極少數內容」、「封鎖些許內容」或「封鎖多數內容」:
- 仇恨言論:針對身分或受保護特質發表負面或有害言論。
- 危險內容:宣傳有害商品、服務與活動,或是提供接觸管道。
- 情色露骨內容:提及性行為或其他猥褻情事的內容。
- 騷擾內容:針對他人發表含有恐嚇、霸凌、辱罵或惡意意圖的言論。
溫度:控制權杖選取的隨機程度。如果希望回覆內容正確無誤,建議調低溫度參數。如果溫度參數較高,則可能生成較多樣化或預料之外的結果。
輸出詞元限制:決定單則提示可輸出的文字數量上限。一個詞元約為四個字元。
最多回覆:個別提示產生的模型回覆數量上限,回覆仍有可能因安全性篩選器或其他政策而遭到封鎖。
Top-P:影響模型選取輸出符記的方式。
逐句顯示模型回覆:選取後,系統會顯示正在生成的回覆。
新增停止序列:輸入序列,讓模型停止生成內容。每輸入一個序列後,請按 Enter 鍵。
按一下「儲存」,儲存設定變更。
按一下 [套用]。
按一下「提交提示」,比較提示和回覆。
如要進一步瞭解各模型的權杖限制,請參閱「控管思考預算」。
與其他儲存的提示比較
如要比較儲存的提示,請按照下列步驟操作:
- 按一下「比較儲存的提示」,「現有提示」窗格隨即顯示。
- 選取最多兩個要比較的現有提示:
- 選取「提示名稱」。如果清單中有許多提示,請點選「篩選器」欄位,然後選取要篩選的屬性。輸入值,然後按下 Enter 鍵。
- 按一下 [套用]。「比較」頁面會並列顯示所選提示,方便您比較。
- 按一下「提交提示」,比較提示和回覆。
與真值比較
基準真相是指您希望提示產生的優質答案。提供基準真相後,系統會根據該答案評估所有其他模型回應。
如要比較提示的回應與實際資料,請按照下列步驟操作:
- 按一下「基準真相」。「基準真相」窗格隨即顯示。
- 輸入基準真相答案。這項資料會用於產生評估指標。
- 按一下「儲存」即可儲存基本事實。
- 按一下「提交提示」,比較提示和回覆。
比較基準真相後產生的評估指標不會受到所選區域影響。
後續步驟
- 如需更多提示範例,請前往提示庫。
- 如要進一步瞭解如何評估模型,請參閱「生成式 AI 評估服務總覽」。