为翻译 LLM 模型准备监督式微调数据

本文档介绍如何为翻译 LLM 模型定义监督式微调数据集。您可以对文本数据类型进行调优。

监督式微调数据集简介

监督式微调数据集用于根据特定领域微调预训练模型。输入数据应与您希望模型在实际使用中遇到的数据类似。输出标签应表示每个输入的正确答案或结果。

训练数据集

如需对模型调优，您需要提供训练数据集。为获得最佳结果，我们建议您先提供 100 个示例。您可以根据需要扩展到数千个示例。数据集的质量远比数量更重要。

限制：

每个样本的输入和输出 token 数上限：1,000
训练数据集文件大小上限：对于 JSONL 不超过 1 GB。

验证数据集

我们强烈建议您提供验证数据集。验证数据集可帮助您衡量调优作业的效果。

限制：

每个样本的输入和输出 token 数上限：1,000
验证数据集中的样本数上限：1024
训练数据集文件大小上限：对于 JSONL 不超过 1 GB。

数据集格式

模型调优数据集必须采用 JSON 行 (JSONL) 格式，其中每行包含一个调优样本。在调优模型之前，您必须先将数据集上传到 Cloud Storage 存储桶。请务必上传到 us-central1。

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

参数

示例包含具有以下参数的数据：

参数

参数
`contents`	必需：`Content` 与模型当前对话的内容。对于单轮查询，这是单个实例。

contents

必需：Content

与模型当前对话的内容。

对于单轮查询，这是单个实例。

`translation-llm-002` 的数据集示例

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

参数
`role`	可选：`string`。创建消息的实体的身份。支持以下值： `user`：表示消息是由真人发送的，通常是用户生成的消息。 `model`：表示消息是由模型生成的。
`parts`	`part` 构成单条消息的有序部分的列表。如需了解输入限制（例如 token 或图片数量上限），请参阅 Google 模型页面上的模型规范部分。如需计算请求中的词元数，请参阅获取词元数。