為翻譯大型語言模型準備監督式微調資料

本文件說明如何為 Translation LLM 模型定義監督式微調資料集。您可以調整文字資料類型。

關於監督式精細調整資料集

監督式微調資料集可用於將預先訓練的模型微調至特定領域。輸入資料應與模型在實際使用中可能遇到的情況相似。輸出標籤應代表每個輸入內容的正確答案或結果。

訓練資料集

如要調整模型,您必須提供訓練資料集。為獲得最佳結果,建議您先從 100 個範例開始。您可以視需要擴大至數千個樣本。資料集的品質遠比數量重要。

限制:

  • 每個範例的輸入和輸出符記數量上限:1,000
  • 訓練資料集的檔案大小上限:JSONL 檔案大小上限為 1 GB。

驗證資料集

強烈建議您提供驗證資料集。驗證資料集可協助您評估調整作業的成效。

限制:

  • 每個範例的輸入和輸出符記數量上限:1,000
  • 驗證資料集中的範例數量上限:1024
  • 訓練資料集的檔案大小上限:JSONL 檔案大小上限為 1 GB。

資料集格式

模型調整資料集必須採用 JSON Lines (JSONL) 格式,其中每一行都包含一個調整範例。在調整模型前,您必須將資料集上傳至 Cloud Storage 值區。請務必上傳至 us-central1。

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

參數

範例包含以下參數的資料:

參數

contents

必要項目:Content

與模型目前對話的內容。

對於單次查詢,則為單一例項。

translation-llm-002 的資料集範例

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

目錄

包含郵件多部分內容的基本結構化資料類型。

這個類別包含兩個主要屬性:rolepartsrole 屬性代表產生內容的使用者,而 parts 屬性則包含多個元素,每個元素代表訊息中的一段資料。

參數

role

選用:string

建立訊息的實體身分。支援的值如下:

  • user:表示訊息是由真人傳送,通常是使用者產生的訊息。
  • model:表示訊息是由模型產生。

parts

part

由單一訊息組成的排序部分清單。

如要瞭解輸入內容的限制 (例如符記或圖片的數量上限),請參閱「Google 模型」頁面上的模型規格。

如要計算要求中的符記數,請參閱「取得符記數」一節。

零件

包含多部分 Content 訊息的媒體資料類型。

參數

text

選用:string

文字提示或程式碼片段。

將微調資料集上傳至 Cloud Storage

如要執行調整工作,您必須將一或多個資料集上傳至 Cloud Storage 值區。您可以建立新的 Cloud Storage 值區,或使用現有值區來儲存資料集檔案。值區的地區不重要,但建議您使用位於您預計要微調模型的Google Cloud 專案中所屬的值區。

值區準備就緒後,請上傳資料集檔案至該值區。

資料準備作業的筆記本範例

以下提供一些 Colab 筆記本範例,協助您快速上手。

AutoML Translation 資料集

如果您已將翻譯資料集上傳至 AutoML Translation,可以按照 Colab 範例匯出資料集,以便進行調整。

Google Colaboratory 標誌
在 Colab 中執行
Google Cloud Colab Enterprise 標誌
在 Colab Enterprise 中執行
GitHub 標誌
前往 GitHub 查看

本機資料集

如果您在本機有 TSV、CSV 或 TMX 格式的資料,可以上傳至 Colab 進行調整。

Google Colaboratory 標誌
在 Colab 中執行
Google Cloud Colab Enterprise 標誌
在 Colab Enterprise 中執行
GitHub 標誌
前往 GitHub 查看

後續步驟