Google 基础模型

Vertex AI 包含越来越多的基础模型,您可以测试、部署和自定义这些模型,以在您的基于 AI 的应用中使用。基础模型针对特定应用场景进行了微调,并以不同的价位提供。本页面总结了各种 API 中可用的模型,并指导您按应用场景选择模型。

如需详细了解 Vertex AI 上的所有 AI 模型和 API,请参阅探索 AI 模型和 API

基础模型 API

Vertex AI 具有以下基础模型 API:

  • Gemini API(多模态文本、图片、音频、视频、PDF、代码和聊天)
  • PaLM API(文本、聊天和嵌入)
  • Codey API(代码生成、代码聊天和代码补全)
  • Imagen API(图片生成、图片修改、图片标注、视觉问答和多模态嵌入)

Gemini API 模型

下表汇总了 Gemini API 中提供的模型:

模型名称 说明 模型属性 调优支持
Gemini 1.5 Pro预览版
(gemini-1.5-pro)
此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。Gemini 1.5 Pro 支持多达 100 万个词元,能够理解长上下文。 词元数总上限(输入和输出):100 万
输出词元数上限:8,192
原始图片大小上限:20 MB
base64 编码图片大小上限:7 MB
每个提示的图片数量上限:3,000
视频时长上限:1 小时
每个提示的视频数量上限:10
音频时长上限:约 8.4 小时
每个提示的音频数量上限:1
PDF 大小上限:30 MB
训练数据:截至 2024 年 4 月
监督式:否
RLHF:否
蒸馏:否
Gemini 1.0 Pro
(gemini-1.0-pro)
主要用于处理自然语言任务、多轮文本、代码聊天和代码生成。对于仅包含文本的提示,请使用 Gemini 1.0 Pro。 词元数总上限(输入和输出):32,760
输出词元数上限:8,192
训练数据:截至 2023 年 2 月
监督式:是
RLHF:否
蒸馏:否
Gemini 1.0 Pro Vision
(gemini-1.0-pro-vision)
此多模态模型支持在文本提示中添加图片、PDF 和视频,以提供文本或代码回答。使用 Gemini 1.0 Pro Vision 多模态提示。 词元数总上限(输入和输出):16,384
输出词元数上限:2,048
图片大小上限:无限制
每个提示的图片数上限:16
视频长度上限:2 分钟
每个提示的视频数上限:1
训练数据:截至 2023 年 2 月
监督式:否
RLHF:否
蒸馏:否
Gemini 1.0 Ultra(正式版,附带许可名单) Google 最强大的多模态模型,针对指令、代码和推理等复杂任务进行了优化,并支持多种语言。Gemini 1.0 Ultra 已面向一组选定客户正式发布 (GA)。 输入词元数上限:8,192
输出词元数上限:2,048
监督式:否
RLHF:否
蒸馏:否
Gemini 1.0 Ultra Vision(正式版,附带许可名单) Google 最强大的多模态视觉模型,已针对文本、图片、视频和多轮聊天进行了优化。Gemini 1.0 Ultra Vision 已面向一组选定客户正式发布 (GA)。 输入词元数上限:8,192
输出词元数上限:2,048
监督式:否
RLHF:否
蒸馏:否
Gemini Experimental 您可以测试的实验性 Gemini 模型。如需了解详情,请参阅测试实验性 Gemini 模型 监督式:否
RLHF:否
蒸馏:否

PaLM API 模型

下表汇总了 PaLM API 中提供的模型:

模型名称 说明 模型属性 调优支持
PaLM 2 for Text
(text-bison)
专门为了遵循自然语言指令而进行了微调,适用于各种语言任务,例如分类、摘要和提取。 输入词元数上限:8192
输出词元数上限:1024
训练数据:截至 2023 年 2 月
监督式:
RLHF: (预览)
蒸馏:否
PaLM 2 for Text (text-unicorn) PaLM 系列模型中最先进的文本模型,可用于复杂的自然语言任务。 输入词元数上限:8192
输出词元数上限:1024
训练数据:截至 2023 年 2 月
监督式:否
RLHF:否
蒸馏:预览版
PaLM 2 for Text 32k
(text-bison-32k)
经过微跳以遵循自然语言指令,适用于各种语言任务。 词元数上限(输入 + 输出):32,768
输出词元数上限:8,192
训练数据:截至 2023 年 8 月
监督式:
RLHF:否
蒸馏:否
PaLM 2 for Chat
(chat-bison)
已针对多轮对话应用场景进行微调。 输入词元数上限:8192
输出词元数上限:2048
训练数据:截至 2023 年 2 月
最大轮数:2500
监督式:
RLHF:否
蒸馏:否
PaLM 2 for Chat 32k
(chat-bison-32k)
已针对多轮对话应用场景进行微调。 词元数上限(输入 + 输出):32,768
输出词元数上限:8,192
训练数据:截至 2023 年 8 月
最大轮数:2500
监督式:
RLHF:否
蒸馏:否
Embeddings for Text
(textembedding-gecko)
返回文本输入的模型嵌入。 3072 个输入词元并输出 768 维向量嵌入。 监督式:
RLHF:否
蒸馏:否
Embeddings for Text multilingual
(textembedding-gecko-multilingual)
返回支持 100 多种语言的文本输入的模型嵌入 3072 个输入词元并输出 768 维向量嵌入。 监督式:预览版
RLHF:否
蒸馏:否

Codey API 模型

下表汇总了 Codey API 中提供的模型:

模型名称 说明 模型属性 调优支持
Codey for Code Generation
(code-bison)
该模型经过调优,可根据所需代码的自然语言描述生成代码。例如,它可以为函数生成单元测试。 输入词元数上限:6144
输出词元数上限:1024
监督式:
RLHF:否
蒸馏:否
Codey for Code Generation 32k
(code-bison-32k)
该模型经过调优,可根据所需代码的自然语言描述生成代码。例如,它可以为函数生成单元测试。 词元数上限(输入 + 输出):32,768
输出词元数上限:8,192
监督式:
RLHF:否
蒸馏:否
Codey for Code Chat
(codechat-bison)
针对聊天机器人对话进行了微调的模型,有助于解决与代码相关的问题。 输入词元数上限:6144
输出词元数上限:1024
监督式:
RLHF:否
蒸馏:否
Codey for Code Chat 32k
(codechat-bison-32k)
针对聊天机器人对话进行了微调的模型,有助于解决与代码相关的问题。 词元数上限(输入 + 输出):32,768
输出词元数上限:8,192
监督式:
RLHF:否
蒸馏:否
Codey for Code Completion
(code-gecko)
根据编写的代码中的语境微调模型以建议代码补全。 输入词元数上限:2048
输出词元数上限:64
监督式:否
RLHF:否
蒸馏:否

Imagen API 模型

下表汇总了 Imagen API 中提供的模型:

模型名称 说明 模型属性 调优支持
Imagen for Image Generation
(imagegeneration)
此模型支持图片生成,可在几秒钟内创建高品质的视觉素材资源。 每项目每分钟的请求数上限:100
生成的图片数上限:8
最大基础图片(编辑/提升分辨率)10 MB
生成的图片分辨率:1024x1024 像素
监督式:否
RLHF:否
Embeddings for Multimodal
(multimodalembedding)
此模型会根据您提供的输入生成向量,可包含图片和文本的组合。 每项目每分钟的请求数上限:120
文本长度上限:32 个词元
语言:英语
图片大小上限:20 MB
监督式:否
RLHF:否
Image captioning
(imagetext)
支持图片说明的模型。此模型会根据您指定的语言对您提供的图片生成图片说明。 每项目每分钟的请求数上限:500
语言:英语、法语、德语、意大利语、西班牙语
图片大小上限:10 MB
标注数量上限:3
监督式:否
RLHF:否
Visual Question Answering - VQA
(imagetext)
支持图片问答的模型。 每项目每分钟的请求数上限:500
语言:英语
图片大小上限:10 MB
回答数量上限:3
监督式:否
RLHF:否

MedLM API 模型

下表汇总了 MedLM API 中提供的模型:

模型名称 说明 模型属性 调优支持
MedLM-medium (medlm-medium) 由 Google 研究提供支持的一组模型和 API,针对医疗领域进行了调整并符合 HIPAA 要求。这些模型可帮助医疗保健从业者进行医学类问答 (Q&A),以及对医疗保健和医学文档进行摘要。 词元数上限(输入 + 输出)32,768
输出词元数上限:8,192
语言:英语
监督式:否
RLHF:否
MedLM-large (medlm-large) 由 Google 研究提供支持的一组模型和 API,针对医疗领域进行了调整并符合 HIPAA 要求。这些模型可帮助医疗保健从业者进行医学类问答 (Q&A),以及对医疗保健和医学文档进行摘要。 输入词元数上限:8,192
输出词元数上限:1,024
语言:英语
监督式:否
RLHF:否

语言支持

对于以下语言,Vertex AI PaLM APIVertex AI Gemini API正式版 (GA)

  • 阿拉伯语 (ar)
  • 孟加拉语 (bn)
  • 保加利亚语 (bg)
  • 简体中文和繁体中文 (zh)
  • 克罗地亚语 (hr)
  • 捷克语 (cs)
  • 丹麦语 (da)
  • 荷兰语 (nl)
  • 英语 (en)
  • 爱沙尼亚语 (et)
  • 芬兰语 (fi)
  • 法语 (fr)
  • 德语 (de)
  • 希腊语 (el)
  • 希伯来语 (iw)
  • 印地语 (hi)
  • 匈牙利语 (hu)
  • 印度尼西亚语 (id)
  • 意大利语 (it)
  • 日语 (ja)
  • 韩语 (ko)
  • 拉脱维亚语 (lv)
  • 立陶宛语 (lt)
  • 挪威语 (no)
  • 波兰语 (pl)
  • 葡萄牙语 (pt)
  • 罗马尼亚语 (ro)
  • 俄语 (ru)
  • 塞尔维亚语 (sr)
  • 斯洛伐克语 (sk)
  • 斯洛维尼亚语 (sl)
  • 西班牙语 (es)
  • 斯瓦希里语 (sw)
  • 瑞典语 (sv)
  • 泰语 (th)
  • 土耳其语 (tr)
  • 乌克兰语 (uk)
  • 越南语 (vi)

如需访问其他语言,请与您的 Google Cloud 代表联系。

在 Model Garden 中探索所有模型

Model Garden 是一个平台,可帮助您发现、测试、自定义和部署 Google 专有的以及部分 OSS 模型和资产。如需探索 Vertex AI 上可用的生成式 AI 模型和 API,请转到 Google Cloud 控制台中的 Model Garden。

转到 Model Garden

如需详细了解 Model Garden,包括可用的模型和功能,请参阅在 Model Garden 中探索 AI 模型

后续步骤