Google 模型

Vertex AI 包含越来越多的基础模型,您可以测试、部署和自定义这些模型,以在您的基于 AI 的应用中使用。基础模型针对特定应用场景进行了微调,并以不同的价位提供。本页面总结了各种 API 中可用的模型,并指导您按应用场景选择模型。

如需详细了解 Vertex AI 上的所有 AI 模型和 API,请参阅探索 AI 模型和 API

Gemini 模型

下表汇总了 Gemini API 中提供的模型:

模型名称 说明 规格
Gemini 1.5 Flash(预览版)
(gemini-1.5-flash)
专为高容量、经济实惠的应用而设计的多模态模型。Gemini 1.5 Flash 速度快、效率高,可用于构建快速、低成本的应用,并且不影响质量。 词元数总上限(输入和输出):100 万
输出词元数上限:8,192
原始图片大小上限:20 MB
base64 编码图片大小上限:7 MB
每个问题的图片数量上限:3,000
视频时长上限:1 小时
每个问题的视频数量上限:10
音频时长上限:约 8.4 小时
每个问题的音频数量上限:1
PDF 大小上限:30 MB
训练数据:截至 2024 年 5 月
Gemini 1.5 Pro(预览版)
(gemini-1.5-pro)
此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。Gemini 1.5 Pro 支持多达 100 万个词元,能够理解长上下文。 词元总数上限(输入和输出):100 万
输出词元数上限:8,192
每个问题的图片数上限:3,000
视频时长上限(仅限帧):大约 1 小时
视频时长上限(帧和音频):大约 45 分钟
每个问题的视频数量上限:10
音频时长上限:约 8.4 小时
每个问题的音频数量上限:1
PDF 大小上限:30 MB
训练数据:截至 2024 年 5 月
Gemini 1.0 Pro
(gemini-1.0-pro)
性能最佳的模型,具有适用于各种纯文本任务的特征。

仅支持文本作为输入。
支持监督式调优
词元数总上限(输入和输出):32,760
输出词元数上限:8,192
训练数据:截至 2023 年 2 月
Gemini 1.0 Pro Vision
(gemini-1.0-pro-vision)
性能出色的图片/视频理解模型,可处理各种应用。

支持将文本、图片和视频作为输入。
词元总数上限(输入和输出):16,384
输出词元数上限:2,048
每个问题的图片数上限:16
视频时长上限:2 分钟
每个问题的视频数量上限:1
训练数据:截至 2023 年 2 月
Gemini 1.0 Ultra(正式版,附带许可名单) Google 最强大的文本模型,针对指令、代码和推理等复杂任务进行了优化。

仅支持文本输入。
输入词元数上限:8,192
输出词元数上限:2,048
Gemini 1.0 Ultra Vision
(正式版,附带许可名单)
Google 最强大的多模态视觉模型,经过优化,可支持联合文本、图片和视频输入。 输入词元数上限:8,192
输出词元数上限:2,048

Gemini 模型支持以下语言:
阿拉伯语 (ar)、孟加拉语 (bn)、保加利亚语 (bg)、中文(简体和繁体)(zh)、克罗地亚语 (hr)、捷克语 (cs)、丹麦语 (da)、荷兰语 (nl)、英语 (en)、爱沙尼亚语 (et)、芬兰 (fi)、法语 (fr)、德语 (de)、希腊语 (el)、希伯来语 (iw)、印地语 (hi)、匈牙利语 (hu)、印度尼西亚语 (id)、意大利语 (it)、日语 (ja)、韩语 (ko)、拉脱维亚语 (lv)、立陶宛语 (lt)、挪威语 (no)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、塞尔维亚语 (sr)、斯洛伐克语 (sk)、斯洛文尼亚语 (sl)、西班牙语 (es)、斯瓦希里语 (sw)、瑞典语 (sv)、泰语 (th)、土耳其语 (tr)、乌克兰语 (uk)、越南语 (vi)。

嵌入模型

下表汇总了 Embeddings API 中提供的模型。

模型名称 说明 规格
Embeddings for text
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
返回英语文本输入的嵌入。

支持“text-embedding-gecko”模型的监督式调优(仅支持英语)。
词元输入数量上限:3,072 (textembedding-gecko@001)、
2,048(其他)。

嵌入维度:text-embedding-004:<=768
其他:768。
Embeddings for text multilingual
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
返回 100 多种语言的文本输入的嵌入

支持 text-multilingual-embedding-002 模型的监督式调优
支持 100 种语言。
词元输入数量上限:2048

嵌入维度:text-multilingual-embedding-002:<=768
其他:768。
Embeddings for multimodal
(multimodalembedding)
返回文本、图片和视频输入的嵌入,以比较不同模型中的内容。

将文本、图片和视频转换为同一矢量空间。视频仅支持 1408 个维度。
仅支持英语
词元输入数量上限:32;
图片大小上限:20 MB;视频时长上限:2 分钟;

嵌入维度:128、256、512 或 1408(对于文本和图片输入);1408(对于视频输入)。

文本多语言嵌入模型支持以下语言:
南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、奇切瓦语、中文、科西加语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印度尼西亚语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马拉加语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、修纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里斯语、科萨语、意第绪语、约鲁巴语、祖鲁语。

Imagen 模型

下表汇总了 Imagen API 中提供的模型:

模型名称 说明 规格
Imagen 2
(imagegeneration@006)
此模型支持图片生成和修改,可在几秒钟内创建高品质的图片。

修改功能支持移除和插入对象、扩绘和商品修改
最大图片输出:4
宽高比(用于生成):1:1、9:16、16:9、3:4、4:3

分辨率:约 1500 像素(因宽高比而异)

Imagen 模型支持以下语言:
英语、中文(简体)、中文(繁体)、印地语、日语、韩语、葡萄牙语和西班牙语。

代码补全模型

下表汇总了 Codey API 中提供的模型:

模型名称 说明 规格
Codey for Code Generation
(code-bison)
该模型经过调优,可根据所需代码的自然语言描述生成代码。例如,它可以为函数生成单元测试。

支持监督式调优
输入词元数上限:6144
输出词元数上限:1024
Codey for Code Generation 32k
(code-bison-32k)
功能与 code-bison 类似,但上下文窗口更长

支持监督式调优
词元数上限(输入 + 输出):32,768
输出词元数上限:8,192
Codey for Code Chat
(codechat-bison)
针对聊天机器人对话进行了微调的模型,有助于解决与代码相关的问题。

支持监督式调优
输入词元数上限:6144
输出词元数上限:1024
Codey for Code Chat 32k
(codechat-bison-32k)
功能与 codechat-bison 类似,但上下文窗口更长

支持监督式调优
词元数上限(输入 + 输出):32,768
输出词元数上限:8,192
Codey for Code Completion
(code-gecko)
根据编写的代码中的语境微调模型以建议代码补全。 输入词元数上限:2048
输出词元数上限:64

MedLM 模型

下表汇总了 MedLM API 中提供的模型:

模型名称 说明 规格
MedLM-medium (medlm-medium) 一组支持 HIPAA 合规性的医疗领域模型。

此模型可帮助医疗保健从业者完成医学类问答任务,以及医疗保健和医学文档的汇总任务。
词元数上限(输入 + 输出)32,768
输出词元数上限:8,192
语言:英语
MedLM-large (medlm-large) MedLM 的更高质量变体。 输入词元数上限:8,192
输出词元数上限:1,024
语言:英语

在 Model Garden 中探索所有模型

Model Garden 是一个平台,可帮助您发现、测试、自定义和部署 Google 专有的以及部分 OSS 模型和资产。如需探索 Vertex AI 上可用的生成式 AI 模型和 API,请转到 Google Cloud 控制台中的 Model Garden。

转到 Model Garden

如需详细了解 Model Garden,包括可用的模型和功能,请参阅在 Model Garden 中探索 AI 模型

后续步骤