Google 模型

Vertex AI 包含越来越多的基础模型,您可以测试、部署和自定义这些模型,以在您的基于 AI 的应用中使用。基础模型针对特定应用场景进行了微调,并以不同的价位提供。本页面总结了各种 API 中可用的模型,并指导您按应用场景选择模型。

如需详细了解 Vertex AI 上的所有 AI 模型和 API,请参阅在 Model Garden 中探索 AI 模型

Gemini 模型

下表汇总了 Gemini API 中提供的模型。如需详细了解 API 详情,请参阅 Gemini API 参考文档

如需在 Google Cloud 控制台中探索模型,请在 Model Garden 中选择其模型卡片。

模型 输入 输出 用例 试用模型
Gemini 1.5 Flash
文本、代码、图片、音频、视频、带音频的视频、PDF 文本 为高质量、高性价比的应用提供速度和效率。 试用 Gemini 1.5 Flash 模型
Gemini 1.5 Pro
文本、代码、图片、音频、视频、带音频的视频、PDF 文本 支持在文本或聊天提示中添加图片和视频,以提供文本或代码回复。
支持长上下文理解,且不超过输入词元数量上限。
试用 Gemini 1.5 Pro 模型
Gemini 1.0 Pro
文本 文本 在各种纯文本任务中表现最佳的模型。 前往 Gemini 1.0 Pro 模型卡片
Gemini 1.0 Pro Vision
文本、图片、音频、视频、带音频的视频、PDF 文本 效果最佳的图片和视频理解模型,可处理各种应用。 试用 Gemini 1.0 Pro Vision 模型

以下信息提供了每个 Gemini 模型的详细信息。

Gemini 1.5 Flash

说明

多模式模型专为大容量、经济实惠的应用而设计,速度快、效率高,可用于构建快速、低成本的应用,并且不影响质量。

功能

能力 可用性
落地 是(仅限文本输入)
调优
系统指令 是。请参阅使用系统说明
JSON 支持
预配的吞吐量 是。请参阅支持的模型

规格

规范
输入词元数上限:1,048,576
输出词元数上限:8,192
原始图片大小上限:20 MB
Base64 编码的图片大小上限:7 MB
每个提示的图片数量上限:3,000
视频时长上限:1 小时
每个问题的视频数量上限:10
音频时长上限:约 8.4 小时
每个问题的音频数量上限:1
PDF 文件大小上限:30 MB
训练数据:最长可达 2024 年 5 月

模型版本

如需详细了解模型版本,请参阅模型版本

稳定版本

Gemini 1.5 Flash 模型 发布日期 终止日期 模型版本亮点
gemini-1.5-flash-002 2024 年 9 月 24 日 2025 年 9 月 24 日 提升了模型的整体质量,并在以下类别中取得了显著进步:
  • 真实性和减少模型幻觉。
  • 关于 RAG 用例的 Openbook 问答。
  • 遵循说明。
  • 可理解 102 种语言,尤其是韩语、法语、德语、西班牙语、日语、俄语和中文。
  • SQL 生成。
  • 音频理解。
  • 文档理解。
  • 长上下文。
  • 数学和推理。

Gemini 1.5 Flash 002 使用动态共享配额

有时,即使提示采用其他语言编写,gemini-1.5-flash-002 也可以采用您的当地语言进行回答。此问题仅适用于非英语提示。为了缓解此问题,我们建议您在系统指令中添加以下内容,以确保模型的回复语言与提示语言相同:

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-flash-001 2024 年 5 月 24 日 2025 年 5 月 24 日 Gemini 1.5 Flash 的初始版本。

预览版

模型名称 预览版名称 终止日期
Gemini 1.5 Flash(预览版) gemini-1.5-flash-preview-0514 2024 年 6 月 24 日

Gemini 1.5 Pro

说明

此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。此模型支持理解长上下文,但不超过输入词元上限。

功能

能力 可用性
落地 是(仅限文本输入)
调优
系统指令 是。请参阅使用系统说明
JSON 支持
预配的吞吐量 是。请参阅支持的模型

规格

规范
输入词元数上限:2,097,152
输出词元数上限:8,192
每个提示的图片数量上限:3,000
视频时长上限(仅限帧数):约 1 小时
视频时长上限(包括画面和音频):约 45 分钟
每个问题的视频数量上限:10
音频时长上限:约 8.4 小时
每个问题的音频数量上限:1
PDF 文件大小上限:30 MB
训练数据:最长可达 2024 年 5 月

模型版本

如需详细了解模型版本,请参阅模型版本

稳定版本

Gemini 1.5 Pro 模型 发布日期 终止日期 模型版本亮点
gemini-1.5-pro-002 2024 年 9 月 24 日 2025 年 9 月 24 日 提升了模型的整体质量,并在以下类别中取得了显著进步:
  • 真实性和减少模型幻觉。
  • 关于 RAG 用例的 Openbook 问答。
  • 遵循说明。
  • 可理解 102 种语言,尤其是韩语、法语、德语、西班牙语、日语、俄语和中文。
  • SQL 生成。
  • 音频理解。
  • 文档理解。
  • 长上下文。
  • 数学和推理。

Gemini 1.5 Pro 002 使用动态共享配额

有时,即使提示采用其他语言编写,gemini-1.5-pro-002 也可以采用您的当地语言进行回答。此问题仅适用于非英语提示。为了缓解此问题,我们建议您在系统指令中添加以下内容,以确保模型的回复语言与提示语言相同:

All questions should be answered comprehensively with details, unless the user requests a concise response specifically. Respond in the same language as the query.

gemini-1.5-pro-001 2024 年 5 月 24 日 2025 年 5 月 24 日 Gemini 1.5 Pro 的初始版本。

预览版

模型名称 模型 ID 终止日期
Gemini 1.5 Pro(预览版) gemini-1.5-pro-preview-0514 2024 年 6 月 24 日
Gemini 1.5 Pro(预览版) gemini-1.5-pro-preview-0409(指向并使用 gemini-1.5-pro-preview-0514 2024 年 6 月 14 日

Gemini 1.0 Pro

说明

性能最佳的模型,具有适用于各种纯文本任务的功能。此模型仅支持文本作为输入。

功能

能力 可用性
落地 是(仅限文本输入)
调优 是。gemini-1.0-pro-002 支持监督式调优
系统指令 是。受 gemini-1.0-pro-002 支持。请参阅使用系统说明
JSON 支持
预配的吞吐量 是。请参阅支持的模型

规格

规范
输入词元数上限:32,760
输出词元数上限:8,192
训练数据:截至 2023 年 2 月

模型版本

如需详细了解模型版本,请参阅模型版本

稳定版本

Gemini 1.0 Pro 模型 发布日期 终止日期
gemini-1.0-pro-001 2024 年 2 月 15 日 2025 年 2 月 15 日
gemini-1.0-pro-002 2024 年 4 月 9 日 2025 年 4 月 9 日

自动更新版本

模型名称 自动更新版本名称 引用的稳定版
Gemini 1.0 Pro gemini-1.0-pro gemini-1.0-pro-002

Gemini 1.0 Pro Vision

说明

性能最佳的图片和视频理解模型,可处理各种应用。Gemini 1.0 Pro Vision 支持使用文本、图片和视频作为输入。

功能

能力 可用性
落地
调优
系统指令
JSON 支持
预配的吞吐量 是。请参阅支持的模型

规格

规范
输入词元数上限:16,384
输出词元数上限:2,048
每个提示的图片数量上限:16
视频时长上限:2 分钟
每个问题的视频数量上限:1
训练数据:截至 2023 年 2 月

模型版本

如需详细了解模型版本,请参阅模型版本

稳定版本

Gemini 1.0 Pro Vision 模型 发布日期 终止日期
gemini-1.0-pro-vision-001 2024 年 2 月 15 日 2025 年 2 月 15 日

自动更新别名

模型名称 自动更新版本名称 引用的稳定版
Gemini 1.0 Pro Vision gemini-1.0-pro-vision gemini-1.0-pro-vision-001

Gemini 1.0 Ultra

说明

Google 最强大的文本模型,针对指令、代码和推理等复杂任务进行了优化。Gemini 1.0 Ultra 仅支持文本作为输入。

功能

能力 可用性
落地
调优
系统指令
JSON 支持
预配的吞吐量 是。请参阅支持的模型

规格

规范
输入词元数上限:8,192
输出词元数上限:2,048

模型版本

如需详细了解模型版本,请参阅模型版本

Gemini 1.0 Ultra Vision

说明

Google 最强大的多模态视觉模型,已针对联合文本、图片和视频输入进行了优化。

功能

能力 可用性
落地
调优
系统指令
JSON 支持
预配的吞吐量 是。请参阅支持的模型

规格

规范
输入词元数上限:8,192
输出词元数上限:2,048

模型版本

如需详细了解模型版本,请参阅模型版本

Gemini 语言支持

  • 所有 Gemini 模型都可以理解并以以下语言作答:

    阿拉伯语 (ar)、孟加拉语 (bn)、保加利亚语 (bg)、中文(简体和繁体)(zh)、克罗地亚语 (hr)、捷克语 (cs)、丹麦语 (da)、荷兰语 (nl)、英语 (en)、爱沙尼亚语 (et)、芬兰 (fi)、法语 (fr)、德语 (de)、希腊语 (el)、希伯来语 (iw)、印地语 (hi)、匈牙利语 (hu)、印度尼西亚语 (id)、意大利语 (it)、日语 (ja)、韩语 (ko)、拉脱维亚语 (lv)、立陶宛语 (lt)、挪威语 (no)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、塞尔维亚语 (sr)、斯洛伐克语 (sk)、斯洛文尼亚语 (sl)、西班牙语 (es)、斯瓦希里语 (sw)、瑞典语 (sv)、泰语 (th)、土耳其语 (tr)、乌克兰语 (uk)、越南语 (vi)

  • Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型可以理解和以以下其他语言做出回答:

    阿姆哈拉语 (am)、阿萨姆语 (as)、阿塞拜疆语 (az)、白俄罗斯语 (be)、波斯尼亚语 (bs)、加泰隆语 (ca)、宿务语 (ceb)、科西嘉语 (co)、威尔士语 (cy)、迪维希语 (dv)、世界语 (eo)、巴斯克语 (eu)、波斯语 (fa)、菲律宾语 (Tagalog) (fil)、弗里西语 (fy)、爱尔兰语 (ga)、苏格兰语 (gd)、加利西亚语 (gl)、古吉拉特语 (gu)、豪萨语 (ha)、夏威夷语 (haw)、苗语 (hmn)、海地克里奥语 (ht)、亚美尼亚语 (hy)、伊博语 (ig)、冰岛语 (is)、爪哇语 (jv)、格鲁吉亚语 (ka)、哈萨克语 (kk)、高棉语 (km)、卡纳达语 (kn)、克里奥语 (kri)、库尔德语 (ku)、吉尔吉斯语 (ky)、拉丁语 (la)、卢森堡语 (lb)、老挝语 (lo)、马达加斯加语 (mg)、毛利语 (mi)、马其顿语 (mk)、马拉雅拉姆语 (ml)、蒙古语 (mn)、曼尼普尔语 (Manipuri) (mni-Mtei)、马拉地语 (mr)、马来语 (ms)、马耳他语 (mt)、缅甸语 (my)、尼泊尔语 (ne)、尼亚卡语 (Chichewa) (ny)、奥里亚语 (Oriya) (or)、旁遮普语 (pa)、普什图语 (ps)、信德语 (sd)、僧伽罗语 (Sinhalese) (si)、萨摩亚语 (sm)、绍纳语 (sn)、索马里语 (so)、阿尔巴尼亚语 (sq)、塞索托语 (st)、巽他语 (su)、泰米尔语 (ta)、泰卢固语 (te)、塔吉克语 (tg)、维吾尔语 (ug)、乌尔都语 (ur)、乌兹别克语 (uz)、科萨语 (xh)、意第绪语 (yi)、约鲁巴语 (yo)、祖鲁语 (zu)

Gemma 模型

下表总结了 Gemma 模型。

模型 输入 输出 用例 试用模型
Gemma
模型详情
文本 文本 一种小型、轻量级的开放式文本模型,支持文本生成、总结和提取。可在资源有限的环境中部署。 试用 Gemma
CodeGemma
模型详情
文本、代码、PDF 文本 一系列基于 Gemma 构建的轻量级开放编码模型。最适合生成代码和代码补全。 试用 CodeGemma
PaliGemma
模型详情
文本、图片 文本 轻量级视觉-语言模型 (VLM)。最适合图片说明任务和视觉问答任务。 试用 PaliGemma

Gemma 语言支持

Gemma 仅支持英语。

嵌入模型

下表汇总了 Embeddings API 中提供的模型。

模型名称 说明 规格 试用模型
Embeddings for text
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
模型详情
返回英语文本输入的嵌入。

支持文本嵌入模型的监督式调优(仅支持英语)。
输入词元数上限:3,072 (textembedding-gecko@001)。
其他:2,048。

嵌入维度:text-embedding-004:<=768。
其他:768。
尝试文本嵌入
Embeddings for text multilingual
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
模型详情
返回 100 多种语言的文本输入的嵌入

支持 text-multilingual-embedding-002 模型的监督式调优
支持 100 种语言。
输入词元数上限:2,048。

嵌入维度:text-multilingual-embedding-002:<=768。
其他:768。
试用文本嵌入
Embeddings for Multimodal
(multimodalembedding)
模型详情
返回文本、图片和视频输入的嵌入,以比较不同模型的内容。

将文本、图片和视频转换为同一向量空间。视频仅支持 1408 维度。
仅支持英语
词元输入数量上限:32。
图片大小上限:20 MB。
视频时长上限:2 分钟。

嵌入维度:128、256、512 或 1408(对于文本和图片输入);1408(对于视频输入)。
试用多模态嵌入

嵌入语言支持

文本多语言嵌入模型支持以下语言:
南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、奇切瓦语、中文、科西加语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印度尼西亚语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马拉加语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、修纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里斯语、科萨语、意第绪语、约鲁巴语、祖鲁语。

Imagen 模型

下表汇总了 Imagen API 中提供的模型:

模型 输入 输出 用例 试用模型
Imagen
(imagen-3.0-generate-001, imagen-3.0-fast-generate-001, imagegeneration@006, imagegeneration@005, imagegeneration@002)
模型详情
文字(生成)、图片(编辑) 图片 此模型支持图片生成和编辑,可在几秒钟内创建高品质图片。

修改功能支持移除和插入对象、扩绘和商品修改。
试用 Imagen

Imagen 3 语言支持

Imagen 3 支持以下语言:
英语、中文、印地语、日语、韩语、葡萄牙语和西班牙语。

代码补全模型

下表汇总了 Codey API 中提供的模型:

模型 输入 输出 用例 试用模型
Codey for Code Completion
(code-gecko)
模型详情
支持的语言中的代码 使用支持的语言编写代码 根据编写的代码中的语境微调模型以建议代码补全。 试用 Codey for Code Completion

代码补全模型语言支持

代码补全模型支持英语。

MedLM 模型

下表汇总了 MedLM API 中提供的模型:

模型名称 说明 规格 试用模型
MedLM-medium (medlm-medium)
模型详情
由 Google 研究提供支持的一组模型和 API,针对医疗领域进行了调整并符合 HIPAA 要求。

此模型可帮助医疗保健从业者进行医学类问答任务,以及对医疗保健和医学文档进行摘要。与 medlm-large 模型相比,可提供更高的吞吐量,并包含更多最新数据。
词元数上限(输入 + 输出):32,768。
输出词元数上限:8,192。
尝试 MedLM-medium
MedLM-large (medlm-large)
模型详情
由 Google 研究提供支持的一组符合 HIPAA 要求的医学调优模型和 API。

此模型可帮助医疗保健从业者进行医学类问答任务,以及对医疗保健和医学文档进行摘要。
输入词元数上限:8,192
输出词元数上限:1,024
尝试 MedLM-large

MedLM 预配吞吐量支持

MedLM-medium 和 MedLM-large 支持预付型吞吐量。请参阅支持的模型

MedLM 语言支持

MedLM 模型支持英语。

位置

如需查看这些模型可用的各个位置的列表,请参阅 Vertex AI 上的生成式 AI 位置

模型版本

如需了解模型版本,请参阅模型版本

在 Model Garden 中探索所有模型

Model Garden 是一个平台,可帮助您发现、测试、自定义和部署 Google 专有的以及部分 OSS 模型和资产。如需探索 Vertex AI 上可用的生成式 AI 模型和 API,请转到 Google Cloud 控制台中的 Model Garden。

转到 Model Garden

如需详细了解 Model Garden,包括可用的模型和功能,请参阅在 Model Garden 中探索 AI 模型

后续步骤