Gemini 模型的监督式微调简介

如果您有明确定义的任务并且有可用的已加标签数据，则监督式微调是个不错的选择。对于特定领域的应用，如果其语言或内容与最初训练大型模型的数据存在显著差异，这种方法尤其有效。您可以对文本、图片、音频和文档数据类型进行调优。

监督式微调使用带标签的数据集调整模型行为。此过程会调整模型的权重，以最大限度地减少其预测结果与实际标签之间的差异。例如，它可以提高以下类型任务的模型性能：

分类
摘要
抽样问答
聊天

如需了解有关热门调优用例的讨论，请参阅博文数百家组织正在对 Gemini 模型进行微调。以下是他们最喜欢的应用场景。

如需了解详情，请参阅何时使用监督式微调来调优 Gemini。

支持的模型

以下 Gemini 模型支持监督式微调：

对于支持思考的模型，我们建议将思考预算设为关闭或最低值。这有助于提高调优后的任务的性能并降低费用。在监督式微调期间，模型会从训练数据中学习，并省略思考过程。因此，经过调优的模型无需思考预算即可有效地执行调优后的任务。

限制

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

规范	值
输入和输出训练 token 数上限	131,072
输入和输出传送 token 数上限	与基础 Gemini 模型相同
验证数据集大小上限	5,000 个样本
训练数据集文件大小上限	对于 JSONL，为 1 GB
训练数据集大小上限	100 万个纯文本样本或 30 万个多模态样本
适配器大小	支持的值包括 1、2、4、8 和 16

Gemini 2.5 Pro

规范	值
输入和输出训练 token 数上限	131,072
输入和输出传送 token 数上限	与基础 Gemini 模型相同
验证数据集大小上限	5,000 个样本
训练数据集文件大小上限	对于 JSONL，为 1 GB
训练数据集大小上限	100 万个纯文本样本或 30 万个多模态样本
适配器大小	支持的值包括 1、2、4 和 8

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

规范	值
输入和输出训练 token 数上限	131,072
输入和输出传送 token 数上限	与基础 Gemini 模型相同
验证数据集大小上限	5,000 个样本
训练数据集文件大小上限	对于 JSONL，为 1 GB
训练数据集大小上限	100 万个纯文本样本或 30 万个多模态样本
适配器大小	支持的值包括 1、2、4 和 8

已知问题

向经过调优的 Gemini 模型提交推理请求时应用受控生成可能会导致模型质量下降，这是因为调优和推理期间的数据不一致。在调优期间，系统不会应用受控生成，因此调优后的模型在推理时无法很好地处理受控生成。监督式微调可有效地自定义模型，以生成结构化输出。因此，在对调优后的模型发出推理请求时，无需应用受控生成。

使用监督式微调的应用场景

如果预期输出或任务可以在提示中清晰且简明地定义，并且提示始终如一地生成预期输出，则基础模型效果良好。如果您希望模型学习偏离常规模式的特定领域或特定内容，则不妨考虑对该模型进行调优。例如，您可以使用模型调优来训练模型学习以下内容：

用于生成输出的特定结构或格式。
特定行为，例如何时提供简洁或详细输出。
针对特定输入类型的特定自定义输出。

以下示例是难以仅根据提示说明捕获的使用场景：

分类：预期响应是特定的字词或短语。

提示： 将以下文本分类为以下类别之一：[商业、娱乐]。文本：多元化您的投资组合

响应：业务

调优模型有助于防止模型生成详细的响应。
摘要：摘要遵循特定格式。例如，您可能需要移除聊天摘要中的个人身份信息 (PII)。

提示： 总结： Jessica：听起来很棒！时代广场见！ Alexander：10 点见！

回答： #Person1 和 #Person2 约定上午 10:00 在时代广场会合。

这种将讲话人姓名替换为 #Person1 和 #Person2 的格式很难描述，基础模型可能无法自然地产生此类响应。

提取式问答：问题与上下文有关，回答是上下文的子字符串。

提示： 语境：有证据表明，在过去 21,000 年里，通过末次盛冰期 (LGM) 和随后的冰消期，亚马逊雨林植被发生了重大变化。问题：LGM 指什么？

响应：末次盛冰期

响应“Last Glacial Maximum”是上下文中的特定词组。

聊天：您需要自定义模型响应以遵循人设、角色或人物。

提示： 用户：今天天气怎么样？

回答： 智能助理：作为示例组织的虚拟掌柜，我只能帮您代购和发货。

您还可以在以下情况下调整模型：

提示无法产生一致性足够好的预期结果。
任务过于复杂，无法在提示中定义。例如，您希望模型针对难以在提示中清晰表达的行为进行行为克隆。
您对任务有难以表述的理解，但很难在提示中规范表达。
您希望通过移除少量样本示例来缩短语境长度。

配置调优作业区域

用户数据（例如转换后的数据集和经过调优的模型）存储在调优作业区域中。在调优期间，计算可以分流到可用加速器的其他 US 或 EU 区域。该分流对用户来说是透明的。

如果您使用的是 Vertex AI SDK，则可以在初始化环节指定区域。例如：
```
import vertexai
vertexai.init(project='myproject', location='us-central1')
```
如果您通过使用 tuningJobs.create 方法发送 POST 请求来创建监督式微调作业，则可以使用网址来指定调优作业运行的区域。例如，在下面的网址中，您可以通过将 TUNING_JOB_REGION 的两个实例都替换为运行作业的区域来指定该区域。
```
 https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
```
如果您使用 Google Cloud 控制台，则可以在模型详细信息页面的区域下拉字段中选择所需区域的名称。您也可以在此页面选择基本模型和经过调优的模型名称。

评估调优后的模型

您可以通过以下方式评估调优后的模型：

调优和验证指标：调优作业完成后，使用调优和验证指标评估调优后的模型。
与 Gen AI Evaluation Service 评估集成（预览版）：配置调优作业，以便在调优期间使用 Gen AI Evaluation Service 自动运行评估。以下接口、模型和区域支持与 Gen AI Evaluation Service 进行调优集成：
- 支持的接口：Google Gen AI SDK 和 REST API。
- 支持的模型：gemini-2.5-pro、gemini-2.5-flash 和 gemini-2.5-flash-lite。
- 支持的区域：如需查看支持的区域列表，请参阅支持的区域。

Quota

系统对并发调优作业的数量实施配额。每个项目都配有运行至少一个调优作业的默认配额。这是一个全球配额，所有可用区域和支持的模型共用这一配额。如果要同时运行更多作业，则需要为 Global concurrent tuning jobs 申请更多配额。

如果您配置 Gen AI Evaluation Service 以在调优期间自动运行评估，请参阅 Gen AI Evaluation Service 配额。

价格

您可以在此处查看 Gemini 监督式微调的价格：Vertex AI 价格。

训练 token 数的计算方式如下：训练数据集中的 token 数乘以周期数。调优完毕后，调优后模型的推理（预测请求）仍然会产生费用。Gemini 的每个稳定版的推理价格都相同。如需了解详情，请参阅可用的 Gemini 稳定模型版本。

如果您将 Gen AI Evaluation Service 配置为在调优期间自动运行，则评估会按批量预测作业收费。要了解详情，请参阅价格。

后续步骤

准备监督式微调数据集。
了解如何部署调优后的 Gemini 模型。