Model Garden 支持的模型

Google 的第一方模型列表

下表列出了 Model Garden 中提供的 Google 第一方模型:

模型名称 模态 说明 快速入门
Gemini 2.0 Flash 语言、音频、视觉 所有日常任务和功能的核心模型,可提升性能并支持实时 Live API。 模型卡片
Gemini 2.0 Flash-Lite(预览版 语言、音频、视觉 最快、最具成本效益的 Flash 模型。它提供的质量比 1.5 更好,但价格和速度相同。 模型卡片
Gemini 2.0 Pro (Experimental) 语言、音频、视觉 Google 最强大的编码和世界知识模型,具有 200 万个字符的上下文窗口。 模型卡片
Gemini 1.5 Flash 语言、音频、视觉 最快、最具成本效益的多模态 Gemini 模型。它专为高数据量任务和对延迟敏感且经济实惠的应用而构建。由于 Gemini 1.5 Flash 响应速度很快,因此非常适合用于创建聊天助理和点播内容生成应用。 模型卡片
Gemini 1.5 Pro 语言、音频、视觉 此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。 模型卡片
Gemini 1.0 Pro 语言 主要用于处理自然语言任务、多轮文本、代码聊天和代码生成。 模型卡片
Gemini 1.0 Pro Vision 语言、视觉 此多模态模型支持在文本或聊天提示中添加图片、视频和 PDF 文件,以提供文本或代码回答。 模型卡片
PaLM 2 for Text 语言 专门为了遵循自然语言指令而进行了调优,适用于各种语言任务。 模型卡片
PaLM 2 for Chat 语言 经过微调,可以进行自然对话。使用此模型构建和自定义您自己的聊天机器人应用。 模型卡片
Codey for Code Completion 语言 根据代码提示生成代码。适合用于提供代码建议以及最大限度地减少代码中的 bug。 模型卡片
Codey for Code Generation 语言 根据自然语言输入生成代码。适合用于编写函数、类、单元测试等。 模型卡片
Codey for Code Chat 语言 通过自然对话获得与代码相关的帮助。适合有关 API 的问题、支持的语言的语法等。 模型卡片
Embeddings for Text 语言 将文本数据转换为可由机器学习算法(尤其是大型模型)处理的数值向量。 模型卡片
Imagen for Image Generation Vision 使用文本提示大规模创建工作室级图片。您还可以使用此模型放大图片。 模型卡片
用于修改和自定义的 Imagen Vision 使用基础图片和文本提示,或使用参考图片和文本提示,修改或利用少样本学习大规模创建工作室级图片。 模型卡片
Vertex 图像分割(预览版 Vision 使用文本提示或绘制涂鸦来对图片进行分割。借助图像分割,您可以检测对象、移除图片背景或分割图片前景。 模型卡片
Imagen for Captioning & VQA 语言 为给定图片生成相关说明。 模型卡片
Embeddings for Multimodal Vision 基于图片生成向量,这些向量可用于图片分类和图片搜索等下游任务。 模型卡片
Chirp 语音 通用语音模型的一个版本,包含超过 20 亿个参数,可在单个模型中转写 100 多种语言。 模型卡片

Model Garden 中使用开源调优或服务配方的模型列表

下表列出了 Model Garden 中支持开源调优或服务配方的 OSS 模型:

模型名称 模态 说明 快速入门
Llama 3.3 语言 Meta Llama 3.3 多语言大语言模型 (LLM) 是一款经过预训练和指令调优的生成模型,大小为 70B(文本输入/文本输出)。 模型卡片
Flux Vision 一个拥有 12 亿参数的 rectified flow transformer 模型,可根据文本描述生成高质量的图片。 模型卡片
提示保护 语言 防范大语言模型输入的越狱技术和间接注入。 模型卡片
Llama 3.2 语言 一组多语言的大语言模型,即经过预训练和指令调优的生成模型,大小为 1B 和 3B。 模型卡片
Llama 3.2-Vision 语言、视觉 一组多模态大型语言模型,这些模型是经过预训练和指令调优的图像推理生成模型,大小为 11B 和 90B。这些模型针对视觉识别、图片推理、图说和回答有关图片的常规问题进行了优化。 模型卡片
Llama Guard 3 语言 经过针对内容安全性分类进行微调的 Llama-3.1-8B 预训练模型。 模型卡片
Qwen2 语言 部署基础大语言模型系列 Qwen2。 Colab
模型卡片
Phi-3 语言 部署基础大语言模型系列 Phi-3。 Colab
模型卡片
E5 语言 部署 E5(文本嵌入模型系列)。 Colab
模型卡片
Instant ID 语言、视觉 部署 Instant ID,这是一种保护身份的文字转图片生成模型。 Colab
模型卡片
Llama 3 语言 在 Vertex AI 上使用 Meta 的 Llama 3 模型(8B、70B、405B)进行探索和构建。 模型卡片
Gemma 2 语言 开放式权重模型(9B、27B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
Gemma 语言 开放式权重模型(2B、7B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
CodeGemma 语言 开放式权重模型(2B、7B)(专为代码生成和代码补全而设计的模型)使用用于创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
PaliGemma 语言 开放权重 3B 模型(专为图片标注任务和视觉问答任务而设计的模型)使用创建 Google Gemini 模型所用的研究和技术构建而成。 模型卡片
Vicuna v1.5 语言 部署 Vicuna v1.5 系列模型,它们是根据 LLama2 微调的基础模型,用于文本生成。 模型卡片
NLLB 语言 部署 nllb 系列模型,用于多语言翻译。 模型卡片
Colab
Mistral-7B 语言 部署 Mistral-7B,这是一个用于文本生成的基础模型。 模型卡片
BioGPT 语言 部署 BioGPT,这是一种用于生物医学领域的文本生成模型。 模型卡片
Colab
BiomedCLIP 语言、视觉 部署 BiomedCLIP,这是一种用于生物医学领域的多模态基础模型。 模型卡片
Colab
ImageBind 语言、视觉、
音频
部署 ImageBind,这是一种用于多模态嵌入的基础模型。 模型卡片
Colab
DITO 语言、视觉 微调和部署 DITO,这是一种用于开放词汇对象检测任务的多模态基础模型。 模型卡片
Colab
OWL-ViT v2 语言、视觉 部署 OWL-ViT v2,这是一种用于开放词汇对象检测任务的多模态基础模型。 模型卡片
Colab
FaceStylizer (Mediapipe) Vision 将人脸图像转换为新风格的生成式流水线。 模型卡片
Colab
Llama 2 语言 在 Vertex AI 上微调和部署 Meta 的 Llama 2 基础模型(7B、13B、70B)。 模型卡片
Code Llama 语言 在 Vertex AI 上部署 Meta 的 Code Llama 基础模型(7B、13B、34B)。 模型卡片
Falcon-instruct 语言 使用 PEFT 微调和部署 Falcon-instruct 模型(7B、40B)。 Colab
模型卡片
OpenLLaMA 语言 使用 PEFT 微调和部署 OpenLLaMA 模型(3B、7B、13B)。 Colab
模型卡片
T5-FLAN 语言 微调和部署 T5-FLAN(基础、小、大)。 模型卡片(包含微调流水线)
BERT 语言 使用 PEFT 微调和部署 BERT。 Colab
模型卡片
BART-large-cnn 语言 部署 BART,这是一个转换器编码器-编码器 (seq2seq) 模型,具有双向(类似于 BERT)编码器和自动回归(类似于 GPT)解码器。 Colab
模型卡片
RoBERTa-large 语言 使用 PEFT 微调和部署 RoBERTa-large。 Colab
模型卡片
XLM-RoBERTa-large 语言 使用 PEFT 微调和部署 XLM-RoBERTa-large(多语言版 RoBERTa)。 Colab
模型卡片
Dolly-v2-7b 语言 部署 Dolly-v2-7b,这是一个具有 69 亿个参数的指令跟踪大型语言模型。 Colab
模型卡片
Stable Diffusion XL v1.0 语言、视觉 部署 Stable Diffusion XL v1.0,它支持文字转图片。 Colab
模型卡片
Stable Diffusion XL Lightning 语言、视觉 部署 Stable Diffusion XL Lightning,这是一种文字转图片生成模型。 Colab
模型卡片
Stable Diffusion v2.1 语言、视觉 使用 Dreambooth 微调和部署 Stable Diffusion v2.1(支持文字转图片)。 Colab
模型卡片
Stable Diffusion 4x upscaler 语言、视觉 部署 Stable Diffusion 4x upscaler,它支持文本条件式图片超分辨率。 Colab
模型卡片
InstructPix2Pix 语言、视觉 部署 InstructPix2Pix,它支持使用文本提示来编辑图片。 Colab
模型卡片
Stable Diffusion Inpainting 语言、视觉 微调和部署 Stable Diffusion Inpainting,它支持使用文本提示来修复遮盖图片。 Colab
模型卡片
SAM 语言、视觉 部署 Segment Anything,它支持零镜头图像分割。 Colab
模型卡片
Text-to-video (ModelScope) 语言、视觉 部署 ModelScope text-to-video,它支持文字转视频。 Colab
模型卡片
Pic2Word Composed Image Retrieval 语言、视觉 部署 Pic2Word,它支持多模态合成图片检索。 Colab
模型卡片
BLIP2 语言、视觉 部署 BLIP2,它支持图片描述和视觉问答。 Colab
模型卡片
Open-CLIP 语言、视觉 微调和部署 Open-CLIP,它支持零镜头分类。 Colab
模型卡片
F-VLM 语言、视觉 部署 F-VLM,它支持开放词汇图片对象检测。 Colab
模型卡片
tfhub/EfficientNetV2 Vision 微调和部署 EfficientNetV2 图片分类模型的 TensorFlow Vision 实现。 Colab
模型卡片
EfficientNetV2 (TIMM) Vision 微调和部署 EfficientNetV2 图片分类模型的 PyTorch 实现。 Colab
模型卡片
Proprietary/EfficientNetV2 Vision 微调和部署 EfficientNetV2 图片分类模型的 Google 专有检查点。 Colab
模型卡片
EfficientNetLite (MediaPipe) Vision 通过 MediaPipe Model Maker 微调 EfficientNetLite 图片分类模型。 Colab
模型卡片
tfvision/vit Vision 微调和部署 ViT 图片分类模型的 TensorFlow Vision 实现。 Colab
模型卡片
ViT (TIMM) Vision 微调和部署 ViT 图片分类模型的 PyTorch 实现。 Colab
模型卡片
Proprietary/ViT Vision 微调和部署 ViT 图片分类模型的 Google 专有检查点。 Colab
模型卡片
Proprietary/MaxViT Vision 微调和部署 MaxViT 混合 (CNN + ViT) 图片分类模型的 Google 专有检查点。 Colab
模型卡片
ViT (JAX) Vision 微调和部署 ViT 图片分类模型的 JAX 实现。 Colab
模型卡片
tfvision/SpineNet Vision 微调和部署 SpineNet 对象检测模型的 TensorFlow Vision 实现。 Colab
模型卡片
Proprietary/Spinenet Vision 微调和部署 SpineNet 对象检测模型的 Google 专有检查点。 Colab
模型卡片
tfvision/YOLO Vision 微调和部署 YOLO 单阶段对象检测模型的 TensorFlow Vision 实现。 Colab
模型卡片
Proprietary/YOLO Vision 微调和部署 YOLO 单阶段对象检测模型的 Google 专有检查点。 Colab
模型卡片
YOLOv8 (Keras) Vision 微调和部署 YOLOv8 对象检测模型的 Keras 实现。 Colab
模型卡片
tfvision/YOLOv7 Vision 微调和部署 YOLOv7 对象检测模型。 Colab
模型卡片
ByteTrack Video Object Tracking Vision 使用 ByteTrack 跟踪器运行用于视频对象跟踪的批量预测。 Colab
模型卡片
ResNeSt (TIMM) Vision 微调和部署 ResNeSt 图片分类模型的 PyTorch 实现。 Colab
模型卡片
ConvNeXt (TIMM) Vision 微调和部署 ConvNeXt,这是一种用于图片分类的纯卷积模型,其灵感来自 Vision Transformer 的设计。 Colab
模型卡片
CspNet (TIMM) Vision 微调和部署 CSPNet (Cross Stage Partial Network) 图片分类模型。 Colab
模型卡片
Inception (TIMM) Vision 微调和部署 Inception 图片分类模型。 Colab
模型卡片
DeepLabv3+(带检查点) Vision 微调和部署 DeepLab-v3 Plus 语义图像分割模型。 Colab
模型卡片
Faster R-CNN (Detectron2) Vision 微调和部署 Faster R-CNN 图片对象检测模型的 Detectron2 实现。 Colab
模型卡片
RetinaNet (Detectron2) Vision 微调和部署 RetinaNet 图片对象检测模型的 Detectron2 实现。 Colab
模型卡片
Mask R-CNN (Detectron2) Vision 微调和部署 Mask R-CNN 图片对象检测和分割模型的 Detectron2 实现。 Colab
模型卡片
ControlNet Vision 微调和部署 ControlNet 文字转图片生成模型。 Colab
模型卡片
MobileNet (TIMM) Vision 微调和部署 MobileNet 图片分类模型的 PyTorch 实现。 Colab
模型卡片
MobileNetV2 (MediaPipe) Image Classification Vision 使用 MediaPipe Model Maker 微调 MobileNetV2 图片分类模型。 Colab
模型卡片
MobileNetV2 (MediaPipe) Object Detection Vision 使用 MediaPipe Model Maker 微调 MobileNetV2 对象检测模型。 Colab
模型卡片
MobileNet-MultiHW-AVG (MediaPipe) Vision 使用 MediaPipe Model Maker 微调 MobileNet-MultiHW-AVG 对象检测模型。 Colab
模型卡片
DeiT Vision 微调和部署 DeiT(数据高效的图片转换器)图片分类模型。 Colab
模型卡片
BEiT Vision 微调和部署 BEiT(图片转换器的双向编码器表示法)图片分类模型。 Colab
模型卡片
Hand Gesture Recognition (MediaPipe) Vision 使用 MediaPipe 微调和部署 Hand Gesture Recognition 模型。 Colab
模型卡片
Average Word Embedding Classifier (MediaPipe) Vision 使用 MediaPipe 微调和部署 Average Word Embedding Classifier 模型。 Colab
模型卡片
MobileBERT Classifier (MediaPipe) Vision 使用 MediaPipe 微调和部署 MobileBERT Classifier 模型。 Colab
模型卡片
MoViNet Video Clip Classification 视频 微调和部署 MoViNet 视频片段分类模型。 Colab
模型卡片
MoViNet Video Action Recognition 视频 微调和部署 MoViNet 动作识别推理模型。 Colab
模型卡片
Stable Diffusion XL LCM Vision 部署此模型,它使用潜在一致性模型 (LCM) 增强潜在 Diffusion 模型中的文本转图片生成,可通过更少的步骤更快生成高质量的图片。 Colab
模型卡片
LLaVA 1.5 视觉、语言 部署 LLaVA 1.5 模型。 Colab
模型卡片
Pytorch-ZipNeRF 视觉、视频 训练 Pytorch-ZipNeRF 模型,它是 Pytorch 框架中最先进的 ZipNeRF 算法实现,专门用于根据 2D 图像进行高效准确的 3D 重建。 Colab
模型卡片
Mixtral 语言 部署 Mixtral 模型,它是 Mistral AI 开发的混合专家 (MoE) 大语言模型 (LLM)。 模型卡片
Llama 2(量化) 语言 微调和部署 Meta 的 Llama 2 模型的量化版本。 Colab
模型卡片
LaMa (Large Mask Inpainting) Vision 部署 LaMa,它使用快速傅立叶卷积 (FFC)、高感受野感知损失和大型训练掩膜,可以实现高分辨率的图像修复。 Colab
模型卡片
AutoGluon 表格 利用 AutoGluon,您可以为表格数据训练和部署高准确率的机器学习模型和深度学习模型。 Colab
模型卡片
MaMMUT 语言、视觉 视觉编码器和文本解码器架构,适用于多模态任务,例如视觉问答、图片文本检索、文本图片检索以及多模态嵌入生成。 Colab
模型卡片
Whisper Large 语音 部署 Whisper Large,这是 OpenAI 的自动语音识别 (ASR) 领域的最新模型。 Colab
模型卡片

Model Garden 中提供的合作伙伴模型列表

某些合作伙伴模型在 Vertex AI Model Garden 上以托管式 API(也称为模型即服务)的形式提供。下表列出了 Model Garden 中由 Google 合作伙伴提供的模型:

模型名称 模态 说明 快速入门
Anthropic 的 Claude 3.5 Sonnet v2 语言 升级后的 Claude 3.5 Sonnet 是先进的模型,用于处理实际的软件工程任务和智能体功能。Claude 3.5 Sonnet 依靠与其前代产品相同的价格和速度实现了这些进步。 模型卡片
Anthropic 的 Claude 3.5 Haiku 语言 Claude 3.5 Haiku 是 Anthropic 最快且最具成本效益的下一代模型,非常适合速度和经济性重要的应用场景。 模型卡片
Anthropic 的 Claude 3 Opus 语言 一个强大的 AI 模型,在处理高度复杂的任务时可达到出色的性能。它能够处理开放式提示和背后可能的方案,具有出色的流利度和真人理解能力。 模型卡片
Anthropic 的 Claude 3 Haiku 语言 Anthropic 最快的视觉和文本模型,能够近乎即时地响应基本查询,旨在打造模仿人类互动的无缝 AI 体验。 模型卡片
Anthropic 的 Claude 3.5 Sonnet 语言 Claude 3.5 Sonnet 凭借 Anthropic 的中端模型 Claude 3 Sonnet 的速度和成本,在 Anthropic 的多种评估中优于 Anthropic 的 Claude 3 Opus。 模型卡片
Jamba 1.5 Large(预览版 语言 AI21 Labs 的 Jamba 1.5 Large 旨在提供优质的回答、高吞吐量,并且价格与同类别的其他模型相比具有竞争力。 模型卡片
Jamba 1.5 Mini(预览版 语言 AI21 Labs 的 Jamba 1.5 Mini 在质量、吞吐量和低成本方面取得了良好的平衡。 模型卡片
Llama 3.3(预览版 语言 Llama 3.3 是纯文本 70B 指令调优模型,用于纯文本应用时,相对于 Llama 3.1 70B 和 Llama 3.2 90B,可提供增强的性能。此外,对于某些应用,Llama 3.3 70B 的性能接近 Llama 3.1 405B。 模型卡片
Llama 3.2(预览版 语言、视觉 中型 90B 多模态模型,可支持图片推理,例如图表和图表分析以及图片标注。 模型卡片
Llama 3.1(GA预览版 语言

一组针对多语言对话应用场景进行了优化的多语言 LLM,在常见的行业基准中优于许多可用的开源和封闭式聊天模型。

Llama 3.1 405B 已正式发布 (GA),其定价方式为每 100 万个 token 1 美元。查看价格

Llama 3.1 8B 和 Llama 3.1 70B 目前处于预览版阶段,可免费使用。

模型卡片
Mistral Large (24.11) 语言 Mistral Large (24.11) 是 Mistral Large (24.07) 模型的下一个版本,现在具有更强的推理和函数调用功能。 模型卡片
Mistral Nemo 语言 Mistral AI 最具成本效益的专有模型。使用 Mistral Nemo 低延迟工作负载以及可批量完成的基本任务,例如分类、客户服务和文本生成。 模型卡片
Codestral (25.01) 代码 专为代码生成(包括填充中间部分和代码补全)而设计的尖端模型。 模型卡片