本頁面由 Cloud Translation API 翻譯而成。

為 Gemini 模型準備監督式微調資料

本文說明如何為 Gemini 模型定義監督式微調資料集。你可以調整文字、圖片、音訊和文件資料類型。

關於監督式微調資料集

監督式微調資料集可用於微調預先訓練模型，使其適用於特定工作或領域。輸入資料應與模型在實際應用環境中遇到的資料類似。輸出標籤應代表每個輸入內容的正確答案或結果。

訓練資料集

如要調整模型，請提供訓練資料集。為獲得最佳結果，建議您先提供 100 個樣本。如有需要，您最多可以擴充至數千個範例。資料集的品質遠比數量重要。

驗證資料集

強烈建議您提供驗證資料集。驗證資料集可協助您評估調整作業的成效。

限制

如要瞭解資料集限制 (例如輸入和輸出權杖上限、驗證資料集大小上限，以及訓練資料集檔案大小上限)，請參閱「關於 Gemini 模型監督式微調」。

資料集格式

我們支援下列資料格式：

Vertex AI 多模態資料集 (預先發布版)。
JSON Lines (JSONL) 格式，每行包含一個微調範例。微調模型前，請務必將資料集上傳至 Cloud Storage 值區。

Gemini 的資料集範例

{
  "systemInstruction": {
    "role": string,
    "parts": [
      {
        "text": string
      }
    ]
  },
  "contents": [
    {
      "role": string,
      "parts": [
        {
          // Union field data can be only one of the following:
          "text": string,
          "fileData": {
            "mimeType": string,
            "fileUri": string
          }
        }
      ]
    }
  ]
}

參數

這個範例包含下列參數的資料：

參數

參數
`contents`	必要條件：`Content` 目前與模型對話的內容。如果是單輪查詢，則為單一執行個體。如果是多輪查詢，這個重複欄位會包含對話記錄和最新要求。
`systemInstruction`	自由參加：`Content` 請參閱「支援的型號」。指示模型，引導模型提升成效。例如：「請盡可能簡潔地回答」或「請勿在回覆中使用技術用語」。 `text` 字串會計入權杖限制。系統會忽略 `systemInstruction` 的 `role` 欄位，不會影響模型效能。注意：`parts` 中只能使用 `text`，且每個 `part` 中的內容應位於不同段落。
`tools`	(選用步驟) 這段程式碼可讓系統與外部系統互動，在模型知識和範圍以外執行動作或一連串動作。請參閱函式呼叫。

contents

必要條件：Content

目前與模型對話的內容。

如果是單輪查詢，則為單一執行個體。如果是多輪查詢，這個重複欄位會包含對話記錄和最新要求。

systemInstruction

自由參加：Content

請參閱「支援的型號」。

指示模型，引導模型提升成效。例如：「請盡可能簡潔地回答」或「請勿在回覆中使用技術用語」。

text 字串會計入權杖限制。

系統會忽略 systemInstruction 的 role 欄位，不會影響模型效能。

注意：parts 中只能使用 text，且每個 part 中的內容應位於不同段落。

tools

(選用步驟) 這段程式碼可讓系統與外部系統互動，在模型知識和範圍以外執行動作或一連串動作。請參閱函式呼叫。

參數
`role`	自由參加：`string` 建立訊息的實體身分。支援的值如下： `user`：表示訊息是由真人傳送，通常是使用者產生的訊息。 `model`：表示訊息是由模型生成。在多輪對話中，系統會使用 `model` 值，將模型中的訊息插入對話。如果是非多輪對話，這個欄位可以留空或不設定。
`parts`	`part` 組成單一郵件的排序部分清單。不同部分可能會有不同的 IANA MIME 類型。如要瞭解輸入內容的限制 (例如詞元或圖片數量上限)，請參閱「Google 模型」頁面的模型規格。如要計算要求中的權杖數量，請參閱「取得權杖數量」。

零件

包含媒體的資料類型，是多部分 Content 訊息的一部分。

參數
`text`	自由參加：`string` 文字提示或程式碼片段。
`fileData`	自由參加：`fileData` 儲存在檔案中的資料。
`functionCall`	選用：`FunctionCall`。其中包含代表 `FunctionDeclaration.name` 欄位的字串，以及結構化 JSON 物件，內含模型預測的函式呼叫參數。請參閱函式呼叫。
`functionResponse`	選用：`FunctionResponse`。 `FunctionCall` 的結果輸出內容，其中包含代表 `FunctionDeclaration.name` 欄位的字串，以及包含函式呼叫任何輸出內容的結構化 JSON 物件。做為模型的脈絡資訊。請參閱函式呼叫。

最佳做法

使用實際工作環境資料維持一致性

資料集中的範例應與預期的實際工作環境流量相符。如果資料集含有特定格式、關鍵字、操作說明或資訊，則實際工作環境資料的格式應相同，並包含相同的操作說明。

舉例來說，如果資料集的範例包含 "question:" 和 "context:"，則實際工作環境流量的格式也應包含 "question:" 和 "context:"，且與在資料集範例顯示的順序相同。如果排除內容，模型就無法辨識模式，即便資料集中的範例出現一個確切的問題也是如此。

將微調資料集上傳至 Cloud Storage

如要執行微調工作，請將一或多個資料集上傳至 Cloud Storage bucket。您可以建立新的 Cloud Storage bucket，也可以使用現有 bucket 儲存資料集檔案。值區的所在地區不重要，但建議您使用位於Google Cloud 同一個專案中的值區，因為您打算在該專案中微調模型。

值區準備就緒後，請將資料集檔案上傳至值區。

遵循提示設計最佳做法

訓練資料集和模型訓練完成後，就可以開始設計提示。請務必在訓練資料集中遵循提示設計最佳做法，詳細說明要執行的工作和輸出內容的樣貌。

後續步驟

選擇要調整模型的區域。
如要瞭解如何將監督式微調用於建構生成式 AI 知識庫的解決方案，請參閱「快速部署解決方案：生成式 AI 知識庫」。

為 Gemini 模型準備監督式微調資料 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

關於監督式微調資料集

資料集格式

Gemini 的資料集範例

參數

目錄

零件

最佳做法

使用實際工作環境資料維持一致性

將微調資料集上傳至 Cloud Storage

遵循提示設計最佳做法

後續步驟

為 Gemini 模型準備監督式微調資料