可用的 Gemini 模型

Gemini 是一系列模型,可以处理来自多种模态(包括文本、图片、音频和视频)的信息。Gemini 可以探索和分析海量信息,无缝理解和处理这些多模态数据类型。如需了解详情,请参阅 Gemini 概览

Gemini 1.5 Flash 是 Gemini 系列模型的轻量级版本,速度快、性价比高。Gemini 1.5 Pro 旨在提供更强大的功能。

本页面介绍了可在 Google Distributed Cloud (GDC) 气隙环境中使用的 Gemini 模型的规范。

模型使用场景

下表汇总了 Gemini API 中提供的模型使用场景。

型号 输入 输出 用例
Gemini 1.5 Pro 文本、代码、图片、音频、视频、带音频的视频、文档 文本 支持需要提高回答质量的应用。
Gemini 1.5 Flash 文本、代码、图片、音频、视频、带音频的视频、文档 文本 为经济实惠的应用提供速度和效率。

以下信息详细介绍了每种 Gemini 模型。

功能 Gemini 1.5 Pro Gemini 1.5 Flash
说明 适用于多模态应用场景的通用模型。推荐在需要能够处理大量请求并理解长上下文的模型时使用。 轻量级、快速且经济高效的版本,专为多模态使用场景而设计。当您需要能够处理大量请求且经济高效的模型时,请使用此模型。
功能
  • 文本提示
  • 多模态提示:
    • Image
    • 音频
    • 视频
    • 文档
  • 文本提示
  • 多模态提示:
    • Image
    • 音频
    • 视频
    • 文档
上下文窗口 最多 32,000 个词元 最多 32,000 个词元
每个提示的图片数量上限 100 100
原始图片大小上限 20 MB 20 MB
Base64 编码的图片大小上限 7 MB 7 MB
每个提示的音频文件数量上限 无限制 无限制
音频时长上限 15 分钟 09 分钟
每个问题的视频数量上限 10 10
视频时长上限(仅限帧数) 120 秒 120 秒
视频时长上限(画面和音频) 100 秒 100 秒
文档文件大小上限 50 MB 50 MB
每个请求的文档文件数量上限 100 100
每个文档的最大页数 100 100

选择模型并构建提示

您必须选择要使用哪个模型来生成内容生成请求的回答。您选择的模型会影响输出结果和费用。

GDC 中的 Gemini 模型端点 ID 如下所示:

名称 模型端点 ID
Gemini Flash gemini-1.5-flash
Gemini Pro gemini-1.5-pro

然后,您必须精心设计提示,以便从模型中获得输出。您可以向模型提供精确的指令、示例和必要的背景信息或专业信息,从而改进输出。如需详细了解提示,请参阅提示简介