迁移到最新的 Gemini 模型

本指南介绍了如何将应用更新到最新版 Gemini。本指南假定您的应用已使用旧版 Gemini。如需了解如何开始使用 Vertex AI 中的 Gemini,请参阅 Vertex AI 快速入门中的 Gemini API in Vertex AI

本指南未介绍如何将应用从 Vertex AI SDK 切换到当前的 Google Gen AI SDK。如需了解相关信息,请参阅我们的 Vertex AI SDK 迁移指南

我应该期待哪些变化?

将大多数生成式 AI 应用更新到最新 Gemini 版本时,只需要对代码或提示进行少量更改。不过,某些应用可能需要及时调整。如果不先使用新版本测试提示,就很难预测这些变化。建议在完全迁移之前进行全面测试。如需有关如何创建有效提示的提示,请参阅我们的提示策略指南。 使用我们的提示健康状况检查清单来帮助查找和修复提示问题。

只有在出现某些重大更改或要使用 Gemini 的新功能时,才需要对代码进行大规模更改。

我应该迁移到哪个 Gemini 模型?

您使用的 Gemini 模型取决于应用的需求。 下表比较了旧版 Gemini 1.5 模型与最新 Gemini 模型:

功能 1.5 Pro 1.5 Flash 2.0 Flash 2.0 Flash-Lite 2.5 Pro 2.5 Flash 2.5 Flash-Lite
发布阶段 已弃用 已弃用 已全面推出 已全面推出 已全面推出 已全面推出 已全面推出
输入模态
文本代码图片音频视频
文本代码图片音频视频
文本代码图片音频视频
文本代码图片音频视频
文本代码图片音频视频
文本代码图片音频视频
文本代码图片音频视频
输出模态
文本
文本
文本
文本
文本
文本
文本
上下文窗口,token 总限额 2,097,152 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576
输出上下文长度 8,192(默认值) 8,192(默认值) 8,192(默认值) 8,192(默认值) 65,535(默认) 65,535(默认) 65,536(默认)
使用 Google 搜索建立依据
函数调用
代码执行
上下文缓存
批量预测
Live API*
微调
延迟时间
建议的 SDK Vertex AI SDK Vertex AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK
价格单位 字符 字符 令牌 令牌 令牌 令牌 令牌
停用日期 2025 年 9 月 24 日 2025 年 9 月 24 日 2026 年 2 月 5 日 2026 年 2 月 25 日 2026 年 6 月 17 日 2026 年 6 月 17 日 2026 年 7 月 22 日

* Live API 作为预览版产品提供,是 gemini-live-2.5-flashgemini-live-2.5-flash-preview-native-audio 的一部分。

开始迁移之前

在开始迁移流程之前,您应考虑以下事项:

信息安全、治理和监管审批

尽早获得信息安全 (InfoSec)、风险和合规性团队的审批。涵盖任何特定的风险和合规性规则,尤其是在医疗保健和金融等受监管的行业中。

位置可用性

Vertex AI 上的 Google 及合作伙伴模型以及生成式 AI 功能可通过特定区域级端点全球端点使用。全球端点覆盖全球,与单区域相比,可提供更高的可用性和可靠性。

区域端点可用性因型号而异。如需详细了解每种型号,请参阅我们的位置指南

基于模态和基于 token 的定价差异

不同 Gemini 模型的定价各不相同。我们的价格页面列出了每种模型的所有模态(文本、代码、图片、语音等)的费用。

购买或更改预配吞吐量订单

如有需要,请购买更多预配吞吐量更改现有的预配吞吐量订单

监督式微调

最新的 Gemini 模型可提供更优质的输出。这意味着您的应用可能不再需要经过微调的模型。如果您的应用使用旧版 Gemini 模型进行监督式微调,请先使用最新模型测试您的应用,而不进行微调,然后评估结果。

如果您选择使用监督式微调,则无法迁移旧版 Gemini 中现有的已调优模型。您需要针对新版 Gemini 运行新的微调作业。

在调优新的 Gemini 模型时,请先使用默认调优设置。请勿重复使用先前 Gemini 版本中的超参数值,因为调优服务已针对最新版本进行了优化。 重复使用旧设置不太可能获得理想的结果。

回归测试

升级到最新版 Gemini 时,您需要进行以下三种主要类型的回归测试:

  1. 代码回归测试:从软件工程和开发者运营 (DevOps) 角度进行回归测试。此类回归测试始终是必需的
  2. 模型性能回归测试:从数据科学或机器学习的角度进行回归测试。这意味着,要确保新的 Gemini 模型版本提供的输出至少与之前的版本保持相同的质量水平。

    模型性能回归测试是指在系统或其底层模型发生变化时执行的模型评估。其中包括:

    • 离线性能测试:在专用实验环境中,根据各种模型输出质量指标断言模型输出的质量的测试。
    • 在线模型性能测试:在实时的在线部署中,根据暗示或明示方式的用户反馈来断言模型输出的质量的测试。
  3. 负载测试:这些测试用于检查应用同时处理大量请求的能力。使用预配吞吐量的应用必须进行负载测试。

如何迁移到最新版本

以下部分概述了迁移到最新版 Gemini 的步骤。为了获得最佳效果,请按顺序完成这些步骤。

1. 记录模型评估和测试要求

  1. 准备好重复执行您在最初构建应用时所做的任何相关评估,以及此后所做的任何评估。
  2. 如果您认为现有评估无法充分涵盖或衡量您的应用执行的所有任务,则还应设计并准备更多评估。您可以参考我们的评估剧本评估方案,以便快速入门。
  3. 如果您的应用涉及 RAG、工具使用、复杂的智能体工作流或提示链,请确保现有评估数据支持独立评估每个组件。如果不能,请收集每个组件的输入-输出样本。
  4. 如果您的应用至关重要,或者是某个面向用户的大型实时系统的组成部分,则还应纳入在线评估。

2. 升级代码并运行测试

升级代码需要进行三项主要更改:

以下部分将更详细地介绍这些变更。

升级到 Google Gen AI SDK

如果您的 Gemini 1.x 应用使用 Vertex AI SDK,请改用 Gen AI SDK。如需了解详情(包括使用 Gen AI SDK 进行类似调用的代码示例),请参阅我们的 Vertex AI SDK 迁移指南。2026 年 6 月之后发布的 Vertex AI SDK 将不支持 Gemini,并且新的 Gemini 功能仅在 Gen AI SDK 中提供。

如果您刚开始使用 Gen AI SDK,请参阅通过 Gen AI SDK 开始使用 Google 生成式 AI 服务笔记本。

更改 Gemini 调用

更新预测代码以使用最新的 Gemini 模型之一。这表示您至少要更改模型端点名称。

具体的代码更改将因您构建应用的方式而异,尤其取决于您使用的是 Gen AI SDK 还是 Vertex AI SDK。

在进行代码更改后,请运行代码回归测试及其他软件测试,以确保代码能够按预期运行。此步骤会检查代码是否正常运行,但不会检查模型回答的质量。

修复重大代码更改

此步骤仅涉及代码更改。您可能需要在稍后进行其他更改,但请等到开始评估后再进行。评估完成后,请根据评估结果考虑进行以下调整:

  • 如果您想要从动态检索改为使用新功能,则可能需要调整系统指令以便控制何时使用 Google 搜索(例如 "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic.")。 不过,在评估之前不必着急更改提示。
  • 如果您之前使用了 Top-K 参数,则需要调整其他 token 采样参数(例如 Top-P),以获得类似的结果。

3. 运行离线评估

重复您最初开发和发布应用时所做的评估、此后所做的任何离线评估,以及您在第 1 步中确定的任何其他评估。如果您仍然认为自己的评估未能充分涵盖应用的范围,则还可执行进一步的评估。

如果您没有自动运行离线评估的方法,不妨考虑使用 Gen AI Evaluation Service

如果您的应用使用微调,请先执行离线评估,然后再使用最新版 Gemini 重新调优模型。最新模型可提供更优质的输出,这意味着您的应用可能不再需要经过微调的模型。

4. 评估结果并调整提示和超参数

如果您的离线评估结果显示应用的性能有所下降,请改进应用,直到其性能与旧版模型相当。为此,请执行以下操作:

5. 运行负载测试

如果您的应用需要达到一定的最低吞吐量,请执行负载测试,确保最新版本的应用能够满足您的吞吐量要求。

负载测试必须在在线评估之前进行,因为在线评估涉及将模型公开给实时流量。在此步骤中使用现有的负载测试工具和插桩。

如果您的应用已满足吞吐量需求,不妨考虑使用预配吞吐量。您需要额外的短期预配吞吐量来覆盖负载测试,同时让当前的预配吞吐量订单处理生产流量。

6. (可选)运行在线评估

只有在离线评估结果显示 Gemini 输出质量足够高且您的应用需要进行在线评估时,才进一步进行在线评估。

在线评估是一种特定的在线测试。尝试使用贵组织现有的在线评估工具和方法。例如:

  • 如果贵组织经常进行 A/B 测试,则可以执行一项测试来比较应用的当前版本与最新 Gemini 版本。
  • 如果贵组织经常使用 Canary 部署,请将最新模型与 Canary 部署搭配使用,并衡量用户行为的变化。

您还可以通过在应用中添加新的反馈和衡量功能来进行在线评估。不同的应用需要不同的反馈方法。例如:

  • 在模型输出旁边添加“我喜欢”和“不喜欢”按钮,并将旧版模型与最新的 Gemini 模型之间的比率进行比较。
  • 并排向用户展示旧版模型和最新模型的输出,并让用户选择自己喜欢的输出。
  • 跟踪用户替换或手动调整旧版模型输出与最新模型输出的频率。

这些反馈方法通常需要并行运行最新的 Gemini 版本和现有版本。这种并行部署有时称为“影子模式”或“蓝绿部署”。

如果在线评估结果与离线评估结果存在显著差异,则说明您的离线评估未能涵盖真实环境或用户体验的关键方面。应用在线评估的发现结果来创建新的离线评估,以涵盖遗漏方面,然后返回第 3 步。

如果您使用预配吞吐量,则可能需要购买额外的短期预配吞吐量,才能继续满足接受在线评估的用户的吞吐量要求。

7. 部署到生产环境

在评估结果表明最新 Gemini 模型的性能与旧版模型相当或优于旧版模型后,便可以将现有应用版本替换为新版本。请遵循贵组织现有的生产环境发布标准程序。

如果您使用预配吞吐量,请将预配吞吐量订单更改为适合所选的 Gemini 模型。如果您要以增量方式发布应用,请使用短期预配吞吐量来满足两种不同 Gemini 模型的吞吐量需求。

提高模型性能

在迁移过程中,请应用以下提示,以使所选 Gemini 模型发挥最佳性能:

  • 检查您的系统指令提示少量样本学习示例中是否有任何不一致或矛盾的内容,或者有不相关的指令和示例。
  • 试用功能更强大的模型。例如,如果您评估了 Gemini 2.0 Flash-Lite,不妨再试用一下 Gemini 2.0 Flash。
  • 检查自动化评估结果,确保它们与人工评判结果一致,尤其是使用评判模型的结果。确保您的评判模型指令清晰、一致且明确无误。
  • 为了改进评判模型指令,请让多个人单独测试这些指令。如果人工评断者解读指令的方式各异且提供的评判结果也各不相同,则表明您的评判模型指令不够清晰。
  • 微调模型
  • 检查评估输出,发现表明有特定类型缺陷的模式。将缺陷按模型、类型或类别进行分组,可为您提供更具针对性的评估数据,从而帮助您更轻松地调整提示以修正这些错误。
  • 请务必独立评估不同的生成式 AI 组件。
  • 尝试调整 token 采样参数

获取帮助

如果您需要帮助, Google Cloud 可提供多种支持套餐来满足您的需求,例如全天候支持、手机支持以及技术支持经理对接。如需了解详情,请参阅 Google Cloud 支持团队

后续步骤