本頁面由 Cloud Translation API 翻譯而成。

為翻譯大型語言模型準備監督式微調資料

本文件說明如何為 Translation LLM 模型定義監督式微調資料集。您可以調整文字資料類型。

關於監督式精細調整資料集

監督式微調資料集可用於將預先訓練的模型微調至特定領域。輸入資料應與模型在實際使用中可能遇到的情況相似。輸出標籤應代表每個輸入內容的正確答案或結果。

訓練資料集

如要調整模型，您必須提供訓練資料集。為獲得最佳結果，建議您先從 100 個範例開始。您可以視需要擴大至數千個樣本。資料集的品質遠比數量重要。

限制：

每個範例的輸入和輸出符記數量上限：1,000
訓練資料集的檔案大小上限：JSONL 檔案大小上限為 1 GB。

驗證資料集

強烈建議您提供驗證資料集。驗證資料集可協助您評估調整作業的成效。

限制：

每個範例的輸入和輸出符記數量上限：1,000
驗證資料集中的範例數量上限：1024
訓練資料集的檔案大小上限：JSONL 檔案大小上限為 1 GB。

資料集格式

模型調整資料集必須採用 JSON Lines (JSONL) 格式，其中每一行都包含一個調整範例。在調整模型前，您必須將資料集上傳至 Cloud Storage 值區。請務必上傳至 us-central1。

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

參數

範例包含以下參數的資料：

參數

參數
`contents`	必要項目：`Content` 與模型目前對話的內容。對於單次查詢，則為單一例項。

contents

必要項目：Content

與模型目前對話的內容。

對於單次查詢，則為單一例項。

`translation-llm-002` 的資料集範例

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

參數
`role`	選用：`string` 建立訊息的實體身分。支援的值如下： `user`：表示訊息是由真人傳送，通常是使用者產生的訊息。 `model`：表示訊息是由模型產生。
`parts`	`part` 由單一訊息組成的排序部分清單。如要瞭解輸入內容的限制 (例如符記或圖片的數量上限)，請參閱「Google 模型」頁面上的模型規格。如要計算要求中的符記數，請參閱「取得符記數」一節。