如果您有明确定义的任务并且有可用的已加标签数据,则监督式微调是个不错的选择。对于特定领域的应用,如果其语言或内容与最初训练大型模型的数据存在显著差异,这种方法尤其有效。 您可以对文本、图片、音频和文档数据类型进行调优。
监督式微调使用带标签的数据集调整模型行为。此过程会调整模型的权重,以最大限度地减少其预测结果与实际标签之间的差异。例如,它可以提高以下类型任务的模型性能:
- 分类
- 摘要
- 抽样问答
- 聊天
如需了解有关热门调优用例的讨论,请参阅博文数百家组织正在对 Gemini 模型进行微调。以下是他们最喜欢的应用场景。
如需了解详情,请参阅何时使用监督式微调来调优 Gemini。
支持的模型
以下 Gemini 模型支持监督式微调:
对于支持思考的模型,我们建议将思考预算设为关闭或最低值。这有助于提高调优后的任务的性能并降低费用。在监督式微调期间,模型会从训练数据中学习,并省略思考过程。因此,经过调优的模型无需思考预算即可有效地执行调优后的任务。
限制
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
规范 | 值 |
---|---|
输入和输出训练 token 数上限 | 131,072 |
输入和输出传送 token 数上限 | 与基础 Gemini 模型相同 |
验证数据集大小上限 | 5000 个样本 |
训练数据集文件大小上限 | 对于 JSONL,为 1 GB |
训练数据集大小上限 | 100 万个纯文本样本或 30 万个多模态样本 |
适配器大小 | 支持的值包括 1、2、4、8 和 16 |
Gemini 2.5 Pro
规范 | 值 |
---|---|
输入和输出训练 token 数上限 | 131,072 |
输入和输出传送 token 数上限 | 与基础 Gemini 模型相同 |
验证数据集大小上限 | 5000 个样本 |
训练数据集文件大小上限 | 对于 JSONL,为 1 GB |
训练数据集大小上限 | 100 万个纯文本样本或 30 万个多模态样本 |
适配器大小 | 支持的值包括 1、2、4 和 8 |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
规范 | 值 |
---|---|
输入和输出训练 token 数上限 | 131,072 |
输入和输出传送 token 数上限 | 与基础 Gemini 模型相同 |
验证数据集大小上限 | 5000 个样本 |
训练数据集文件大小上限 | 对于 JSONL,为 1 GB |
训练数据集大小上限 | 100 万个纯文本样本或 30 万个多模态样本 |
适配器大小 | 支持的值包括 1、2、4 和 8 |
已知问题
- 向经过调优的 Gemini 模型提交推理请求时应用受控生成可能会导致模型质量下降,这是因为调优和推理期间的数据不一致。在调优期间,系统不会应用受控生成,因此调优后的模型在推理时无法很好地处理受控生成。监督式微调可有效地自定义模型,以生成结构化输出。因此,在对调优后的模型发出推理请求时,无需应用受控生成。
使用监督式微调的应用场景
如果预期输出或任务可以在提示中清晰且简明地定义,并且提示始终如一地生成预期输出,则基础模型效果良好。如果您希望模型学习偏离常规模式的特定领域或特定内容,则不妨考虑对该模型进行调优。例如,您可以使用模型调优来训练模型学习以下内容:
- 用于生成输出的特定结构或格式。
- 特定行为,例如何时提供简洁或详细输出。
- 针对特定输入类型的特定自定义输出。
以下示例是难以仅根据提示说明捕获的使用场景:
分类:预期响应是特定的字词或短语。
:
调优模型有助于防止模型生成详细的响应。
摘要:摘要遵循特定格式。 例如,您可能需要移除聊天摘要中的个人身份信息 (PII)。
:
这种将讲话人姓名替换为
#Person1
和#Person2
的格式很难描述,基础模型可能无法自然地产生此类响应。提取式问答:问题与上下文有关,回答是上下文的子字符串。
:
响应“Last Glacial Maximum”是上下文中的特定词组。
聊天:您需要自定义模型响应以遵循人设、角色或人物。
您还可以在以下情况下调整模型:
- 提示无法产生一致性足够好的预期结果。
- 任务过于复杂,无法在提示中定义。例如,您希望模型针对难以在提示中清晰表达的行为进行行为克隆。
- 您对任务有难以表述的理解,但很难在提示中规范表达。
- 您希望通过移除少量样本示例来缩短语境长度。
配置调优作业区域
用户数据(例如转换后的数据集和经过调优的模型)存储在调优作业区域中。在调优期间,计算可以分流到可用加速器的其他 US
或 EU
区域。该分流对用户来说是透明的。
如果您使用的是 Vertex AI SDK,则可以在初始化环节指定区域。例如:
import vertexai vertexai.init(project='myproject', location='us-central1')
如果您通过使用
tuningJobs.create
方法发送 POST 请求来创建监督式微调作业,则可以使用网址来指定调优作业运行的区域。例如,在下面的网址中,您可以通过将TUNING_JOB_REGION
的两个实例都替换为运行作业的区域来指定该区域。https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
如果您使用 Google Cloud 控制台,则可以在模型详细信息页面的区域下拉字段中选择所需区域的名称。您也可以在此页面选择基本模型和经过调优的模型名称。
评估调优后的模型
您可以通过以下方式评估调优后的模型:
与 Gen AI Evaluation Service 评估集成(预览版):配置调优作业,以便在调优期间使用 Gen AI Evaluation Service 自动运行评估。以下接口、模型和区域支持与 Gen AI Evaluation Service 进行调优集成:
支持的接口:Google Gen AI SDK 和 REST API。
支持的模型:
gemini-2.5-pro
、gemini-2.5-flash
和gemini-2.5-flash-lite
。支持的区域:如需查看支持的区域列表,请参阅支持的区域。
Quota
系统对并发调优作业的数量实施配额。每个项目都配有运行至少一个调优作业的默认配额。这是一个全球配额,所有可用区域和支持的模型共用这一配额。如果要同时运行更多作业,则需要为 Global concurrent tuning jobs
申请更多配额。
如果您配置 Gen AI Evaluation Service 以在调优期间自动运行评估,请参阅 Gen AI Evaluation Service 配额。
价格
您可以在此处查看 Gemini 监督式微调的价格:Vertex AI 价格。
训练 token 数的计算方式如下:训练数据集中的 token 数乘以周期数。调优完毕后,调优后模型的推理(预测请求)仍然会产生费用。Gemini 的每个稳定版的推理价格都相同。 如需了解详情,请参阅可用的 Gemini 稳定模型版本。
如果您将 Gen AI Evaluation Service 配置为在调优期间自动运行,则评估会按批量预测作业收费。要了解详情,请参阅价格。
后续步骤
- 准备监督式微调数据集。
- 了解如何部署调优后的 Gemini 模型。