本文說明如何為 Gemini 模型定義監督式微調資料集。你可以調整文字、圖片、音訊和文件資料類型。
關於監督式微調資料集
監督式微調資料集可用於微調預先訓練模型,使其適用於特定工作或領域。輸入資料應與模型在實際應用環境中遇到的資料類似。輸出標籤應代表每個輸入內容的正確答案或結果。
訓練資料集
如要調整模型,請提供訓練資料集。為獲得最佳結果,建議您先提供 100 個樣本。如有需要,您最多可以擴充至數千個範例。資料集的品質遠比數量重要。
驗證資料集
強烈建議您提供驗證資料集。驗證資料集可協助您評估調整作業的成效。
限制
如要瞭解資料集限制 (例如輸入和輸出權杖上限、驗證資料集大小上限,以及訓練資料集檔案大小上限),請參閱「關於 Gemini 模型監督式微調」。
資料集格式
我們支援下列資料格式:
JSON Lines (JSONL) 格式,每行包含一個微調範例。 微調模型前,請務必將資料集上傳至 Cloud Storage 值區。
Gemini 的資料集範例
{
"systemInstruction": {
"role": string,
"parts": [
{
"text": string
}
]
},
"contents": [
{
"role": string,
"parts": [
{
// Union field data can be only one of the following:
"text": string,
"fileData": {
"mimeType": string,
"fileUri": string
}
}
]
}
]
}
參數
這個範例包含下列參數的資料:
參數 | |
---|---|
|
必要條件: 目前與模型對話的內容。 如果是單輪查詢,則為單一執行個體。如果是多輪查詢,這個重複欄位會包含對話記錄和最新要求。 |
|
自由參加: 請參閱「支援的型號」。 指示模型,引導模型提升成效。例如:「請盡可能簡潔地回答」或「請勿在回覆中使用技術用語」。
系統會忽略 |
|
(選用步驟) 這段程式碼可讓系統與外部系統互動,在模型知識和範圍以外執行動作或一連串動作。請參閱函式呼叫。 |
目錄
包含郵件多部分內容的基本結構化資料類型。
這個類別包含兩個主要屬性:role
和 parts
。role
屬性代表內容的製作人,而 parts
屬性包含多個元素,每個元素代表訊息中的資料區隔。
參數 | |
---|---|
|
自由參加: 建立訊息的實體身分。支援的值如下:
在多輪對話中,系統會使用 如果是非多輪對話,這個欄位可以留空或不設定。 |
|
組成單一郵件的排序部分清單。不同部分可能會有不同的 IANA MIME 類型。 如要瞭解輸入內容的限制 (例如詞元或圖片數量上限),請參閱「Google 模型」頁面的模型規格。 如要計算要求中的權杖數量,請參閱「取得權杖數量」。 |
零件
包含媒體的資料類型,是多部分 Content
訊息的一部分。
參數 | |
---|---|
|
自由參加: 文字提示或程式碼片段。 |
|
自由參加: 儲存在檔案中的資料。 |
|
選用: 其中包含代表 請參閱函式呼叫。 |
|
選用:
請參閱函式呼叫。 |
最佳做法
使用實際工作環境資料維持一致性
資料集中的範例應與預期的實際工作環境流量相符。如果資料集含有特定格式、關鍵字、操作說明或資訊,則實際工作環境資料的格式應相同,並包含相同的操作說明。
舉例來說,如果資料集的範例包含 "question:"
和 "context:"
,則實際工作環境流量的格式也應包含 "question:"
和 "context:"
,且與在資料集範例顯示的順序相同。如果排除內容,模型就無法辨識模式,即便資料集中的範例出現一個確切的問題也是如此。
將微調資料集上傳至 Cloud Storage
如要執行微調工作,請將一或多個資料集上傳至 Cloud Storage bucket。您可以建立新的 Cloud Storage bucket,也可以使用現有 bucket 儲存資料集檔案。值區的所在地區不重要,但建議您使用位於Google Cloud 同一個專案中的值區,因為您打算在該專案中微調模型。
值區準備就緒後,請將資料集檔案上傳至值區。
遵循提示設計最佳做法
訓練資料集和模型訓練完成後,就可以開始設計提示。請務必在訓練資料集中遵循提示設計最佳做法,詳細說明要執行的工作和輸出內容的樣貌。
後續步驟
- 選擇要調整模型的區域。
- 如要瞭解如何將監督式微調用於建構生成式 AI 知識庫的解決方案,請參閱「快速部署解決方案:生成式 AI 知識庫」。