为 Gemini 模型准备监督式微调数据

本文档介绍如何为 Gemini 模型定义监督式微调数据集。您可以对文本、图片、音频和文档数据类型进行调优。

监督式微调数据集简介

监督式微调数据集可用来根据特定任务或领域微调预训练模型。输入数据应与您希望模型在实际使用中遇到的数据类似。输出标签应表示每个输入的正确答案或结果。

训练数据集

如需对模型调优，您需要提供训练数据集。为获得最佳结果，我们建议您先提供 100 个示例。您可以根据需要扩展到数千个示例。数据集的质量远比数量更重要。

验证数据集

我们强烈建议您提供验证数据集。验证数据集可帮助您衡量调优作业的效果。

限制

如需了解数据集限制（例如输入和输出词元上限、验证数据集大小上限和训练数据集文件大小上限），请参阅 Gemini 模型的监督式微调简介。

数据集格式

我们支持以下数据格式：

Vertex AI 上的多模态数据集（预览版）。
JSON Lines (JSONL) 格式，其中每一行包含一个调优示例。在调优模型之前，您必须先将数据集上传到 Cloud Storage 存储桶。

Gemini 的数据集示例

{
  "systemInstruction": {
    "role": string,
    "parts": [
      {
        "text": string
      }
    ]
  },
  "contents": [
    {
      "role": string,
      "parts": [
        {
          // Union field data can be only one of the following:
          "text": string,
          "fileData": {
            "mimeType": string,
            "fileUri": string
          }
        }
      ]
    }
  ]
}

参数

示例包含具有以下参数的数据：

参数

参数
`contents`	必需：`Content` 与模型当前对话的内容。对于单轮查询，这是单个实例。对于多轮查询，这是包含对话历史记录和最新请求的重复字段。
`systemInstruction`	可选：`Content`。请参阅支持的模型。有关引导模型获得更好性能的说明。例如，“回答尽可能简明扼要”或“请勿在回答中使用技术词汇”。 `text` 字符串会计入 token 限制。 `systemInstruction` 的 `role` 字段会被忽略，不会影响模型的性能。注意：`parts` 中只应使用 `text`，并且每个 `part` 中的内容都应位于单独的段落中。
`tools`	可选。一段代码，可让系统与外部系统进行交互，以在模型知识和范围之外执行操作或一组操作。请参阅函数调用。

contents

必需：Content

与模型当前对话的内容。

对于单轮查询，这是单个实例。对于多轮查询，这是包含对话历史记录和最新请求的重复字段。

systemInstruction

可选：Content。

请参阅支持的模型。

有关引导模型获得更好性能的说明。例如，“回答尽可能简明扼要”或“请勿在回答中使用技术词汇”。

text 字符串会计入 token 限制。

systemInstruction 的 role 字段会被忽略，不会影响模型的性能。

注意：parts 中只应使用 text，并且每个 part 中的内容都应位于单独的段落中。

tools

可选。一段代码，可让系统与外部系统进行交互，以在模型知识和范围之外执行操作或一组操作。请参阅函数调用。

参数
`role`	可选：`string`。创建消息的实体的身份。支持以下值： `user`：表示消息是由真人发送的，通常是用户生成的消息。 `model`：表示消息是由模型生成的。 `model` 值用于在多轮对话期间将来自模型的消息插入到对话中。对于非多轮对话，此字段可以留空或未设置。
`parts`	`part` 构成单条消息的有序部分的列表。不同的部分可能具有不同的 IANA MIME 类型。如需了解输入限制（例如 token 或图片数量上限），请参阅 Google 模型页面上的模型规范部分。如需计算请求中的词元数，请参阅获取词元数。

部分

包含属于多部分 Content 消息一部分的媒体的数据类型。

参数
`text`	可选：`string`。文本提示或代码段。
`fileData`	可选：`fileData`。存储在文件中的数据。
`functionCall`	可选：`FunctionCall`。它包含表示 `FunctionDeclaration.name` 字段的字符串，以及包含模型预测的函数调用的所有参数的结构化 JSON 对象。请参阅函数调用。
`functionResponse`	可选：`FunctionResponse`。 `FunctionCall` 的结果输出，其中包含表示 `FunctionDeclaration.name` 字段的字符串和包含函数调用的任何输出的结构化 JSON 对象。它用作模型的上下文。请参阅函数调用。

最佳做法

与生产数据保持一致

数据集中的样本应与您的预期生产流量相匹配。如果您的数据集包含特定的格式、关键字、说明或信息，则生产数据应以相同方式设置格式并包含相同的说明。

例如，如果数据集中的样本包含 "question:" 和 "context:"，则生产流量的格式也应设置为包含 "question:" 和 "context:"，其顺序与在数据集样本中的显示顺序相同。如果排除了语境，则模型将无法识别该模式，即使确切的问题包含在数据集内的样本中也是如此。

将调优数据集上传到 Cloud Storage

若要运行调优作业，您需要将一个或多个数据集上传到 Cloud Storage 存储桶。您可以创建新的 Cloud Storage 存储桶，也可以使用现有的存储桶来存储数据集文件。存储桶的区域无关紧要，但我们建议您使用您计划用于对模型调优的同一Google Cloud 项目中的存储桶。

存储桶准备就绪后，将数据集文件上传到存储桶。

遵循提示设计的最佳实践

获得训练数据集并训练模型后，就可以设计提示了。请务必在训练数据集中遵循提示设计的最佳实践，详细说明要执行的任务以及输出应有的效果。

后续步骤

选择一个区域以对模型调优。
如需了解如何在构建生成式 AI 知识库的解决方案中使用监督式微调，请参阅快速起步解决方案：生成式 AI 知识库。

为 Gemini 模型准备监督式微调数据

监督式微调数据集简介

数据集格式

Gemini 的数据集示例

参数

目录

部分

最佳做法

与生产数据保持一致

将调优数据集上传到 Cloud Storage

遵循提示设计的最佳实践

后续步骤