Gemini 是一系列模型,可以处理来自多种模态(包括文本、图片、音频和视频)的信息。Gemini 可以探索和分析海量信息,无缝理解和处理这些多模态数据类型。如需了解详情,请参阅 Gemini 概览。
Gemini 1.5 Flash 是 Gemini 系列模型的轻量级版本,速度快、性价比高。Gemini 1.5 Pro 旨在提供更强大的功能。
本页面介绍了可在 Google Distributed Cloud (GDC) 气隙环境中使用的 Gemini 模型的规范。
模型使用场景
下表汇总了 Gemini API 中提供的模型使用场景。
| 型号 | 输入 | 输出 | 用例 |
|---|---|---|---|
| Gemini 1.5 Pro | 文本、代码、图片、音频、视频、带音频的视频、文档 | 文本 | 支持需要提高回答质量的应用。 |
| Gemini 1.5 Flash | 文本、代码、图片、音频、视频、带音频的视频、文档 | 文本 | 为经济实惠的应用提供速度和效率。 |
以下信息详细介绍了每种 Gemini 模型。
| 功能 | Gemini 1.5 Pro | Gemini 1.5 Flash |
|---|---|---|
| 说明 | 适用于多模态应用场景的通用模型。推荐在需要能够处理大量请求并理解长上下文的模型时使用。 | 轻量级、快速且经济高效的版本,专为多模态使用场景而设计。当您需要能够处理大量请求且经济高效的模型时,请使用此模型。 |
| 功能 |
|
|
| 上下文窗口 | 最多 32,000 个词元 | 最多 32,000 个词元 |
| 每个提示的图片数量上限 | 100 | 100 |
| 原始图片大小上限 | 20 MB | 20 MB |
| Base64 编码的图片大小上限 | 7 MB | 7 MB |
| 每个提示的音频文件数量上限 | 无限制 | 无限制 |
| 音频时长上限 | 15 分钟 | 09 分钟 |
| 每个问题的视频数量上限 | 10 | 10 |
| 视频时长上限(仅限帧数) | 120 秒 | 120 秒 |
| 视频时长上限(画面和音频) | 100 秒 | 100 秒 |
| 文档文件大小上限 | 50 MB | 50 MB |
| 每个请求的文档文件数量上限 | 100 | 100 |
| 每个文档的最大页数 | 100 | 100 |
选择模型并构建提示
您必须选择要使用哪个模型来生成内容生成请求的回答。您选择的模型会影响输出结果和费用。
GDC 中的 Gemini 模型端点 ID 如下所示:
| 名称 | 模型端点 ID |
|---|---|
| Gemini Flash | gemini-1.5-flash |
| Gemini Pro | gemini-1.5-pro |
然后,您必须精心设计提示,以便从模型中获得输出。您可以向模型提供精确的指令、示例和必要的背景信息或专业信息,从而改进输出。如需详细了解提示,请参阅提示简介。