Google Cloud 控制台中的 Model Garden 是一个机器学习模型库,可帮助您发现、测试、自定义和部署 Google 拥有的以及部分 OSS 模型和资产。
以下主题介绍 Model Garden 中提供的 AI 模型及其使用方法。
探索模型
如需查看可用的 Vertex AI 和开源基础,以及可微调和任务专用模型的列表,请转到 Google Cloud 控制台中的“Model Garden”页面。
Model Garden 中提供的模型类别包括:
类别 | 说明 |
---|---|
基础模型 | 预训练的多任务大型模型,可使用 Vertex AI Studio、Vertex AI API 和 Vertex AI SDK for Python 针对特定任务进行调优或自定义。 |
可微调的模型 | 您可以使用自定义笔记本或流水线微调模型。 |
针对特定任务的解决方案 | 其中大多数预构建模型都可以使用。其中许多数据都可以使用您自己的数据进行自定义。 |
如需在过滤条件窗格中过滤模型,请指定以下内容:
- 模态:点击模型中所需的模态(数据类型)。
- 任务:点击您希望模型执行的任务。
- 特征:点击所需的模型特征。
如需详细了解每个模型,请点击其模型卡片。
Model Garden 中提供的模型
您可以在 Model Garden 中找到 Google 的第一方模型和部分开源模型。
Google 的第一方模型列表
下表列出了 Model Garden 中提供的 Google 第一方模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Gemini 1.5 Flash | 语言、音频、视觉 | 最快、最具成本效益的多模态 Gemini 模型。它专为高数据量任务和对延迟敏感且经济实惠的应用而构建。由于 Gemini 1.5 Flash 响应速度很快,因此非常适合用于创建聊天助理和点播内容生成应用。 | 模型卡片 |
Gemini 1.5 Pro | 语言、音频、视觉 | 此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。 | 模型卡片 |
Gemini 1.0 Pro | 语言 | 主要用于处理自然语言任务、多轮文本、代码聊天和代码生成。 | 模型卡片 |
Gemini 1.0 Pro Vision | 语言、视觉 | 此多模态模型支持在文本或聊天提示中添加图片、视频和 PDF 文件,以提供文本或代码回答。 | 模型卡片 |
PaLM 2 for Text | 语言 | 专门为了遵循自然语言指令而进行了调优,适用于各种语言任务。 | 模型卡片 |
PaLM 2 for Chat | 语言 | 经过微调,可以进行自然对话。使用此模型构建和自定义您自己的聊天机器人应用。 | 模型卡片 |
Codey for Code Completion | 语言 | 根据代码提示生成代码。适合用于提供代码建议以及最大限度地减少代码中的 bug。 | 模型卡片 |
Codey for Code Generation | 语言 | 根据自然语言输入生成代码。适合用于编写函数、类、单元测试等。 | 模型卡片 |
Codey for Code Chat | 语言 | 通过自然对话获得与代码相关的帮助。适合有关 API 的问题、支持的语言的语法等。 | 模型卡片 |
Embeddings for Text | 语言 | 将文本数据转换为可由机器学习算法(尤其是大型模型)处理的数值向量。 | 模型卡片 |
Imagen for Image Generation | Vision | 使用文本提示大规模创建或编辑工作室级图片。 | 模型卡片 |
Imagen for Captioning & VQA | 语言 | 为给定图片生成相关说明。 | 模型卡片 |
Embeddings for Multimodal | Vision | 基于图片生成向量,这些向量可用于图片分类和图片搜索等下游任务。 | 模型卡片 |
Chirp | 语音 | 通用语音模型的一个版本,包含超过 20 亿个参数,可在单个模型中转写 100 多种语言。 | 模型卡片 |
Model Garden 中使用开源调优或服务配方的模型列表
下表列出了 Model Garden 中支持开源调优或服务配方的 OSS 模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Llama 3.2 | 语言 | 一组多语言的大语言模型,即经过预训练和指令调优的生成模型,大小为 1B 和 3B。 | 模型卡片 |
Llama 3.2-Vision | 语言、视觉 | 一组多模态大型语言模型,这些模型是经过预训练和指令调优的图像推理生成模型,大小为 11B 和 90B。这些模型针对视觉识别、图片推理、图说和回答有关图片的常规问题进行了优化。 | 模型卡片 |
Llama Guard 3 | 语言 | 经过针对内容安全性分类进行微调的 Llama-3.1-8B 预训练模型。 | 模型卡片 |
Qwen2 | 语言 | 部署基础大语言模型系列 Qwen2。 | Colab 模型卡片 |
Phi-3 | 语言 | 部署基础大语言模型系列 Phi-3。 | Colab 模型卡片 |
E5 | 语言 | 部署 E5(文本嵌入模型系列)。 | Colab 模型卡片 |
Instant ID | 语言、视觉 | 部署 Instant ID,这是一种保护身份的文字转图片生成模型。 | Colab 模型卡片 |
Llama 3 | 语言 | 在 Vertex AI 上使用 Meta 的 Llama 3 模型(8B、70B、405B)进行探索和构建。 | 模型卡片 |
Gemma 2 | 语言 | 开放式权重模型(9B、27B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Gemma | 语言 | 开放式权重模型(2B、7B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
CodeGemma | 语言 | 开放式权重模型(2B、7B)(专为代码生成和代码补全而设计的模型)使用用于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
PaliGemma | 语言 | 开放权重 3B 模型(专为图片标注任务和视觉问答任务而设计的模型)使用创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Vicuna v1.5 | 语言 | 部署 Vicuna v1.5 系列模型,它们是根据 LLama2 微调的基础模型,用于文本生成。 | 模型卡片 |
NLLB | 语言 | 部署 nllb 系列模型,用于多语言翻译。 | 模型卡片 Colab |
Mistral-7B | 语言 | 部署 Mistral-7B,这是一个用于文本生成的基础模型。 | 模型卡片 |
BioGPT | 语言 | 部署 BioGPT,这是一种用于生物医学领域的文本生成模型。 | 模型卡片 Colab |
BiomedCLIP | 语言、视觉 | 部署 BiomedCLIP,这是一种用于生物医学领域的多模态基础模型。 | 模型卡片 Colab |
ImageBind | 语言、视觉、 音频 |
部署 ImageBind,这是一种用于多模态嵌入的基础模型。 | 模型卡片 Colab |
DITO | 语言、视觉 | 微调和部署 DITO,这是一种用于开放词汇对象检测任务的多模态基础模型。 | 模型卡片 Colab |
OWL-ViT v2 | 语言、视觉 | 部署 OWL-ViT v2,这是一种用于开放词汇对象检测任务的多模态基础模型。 | 模型卡片 Colab |
FaceStylizer (Mediapipe) | Vision | 将人脸图像转换为新风格的生成式流水线。 | 模型卡片 Colab |
Llama 2 | 语言 | 在 Vertex AI 上微调和部署 Meta 的 Llama 2 基础模型(7B、13B、70B)。 | 模型卡片 |
Code Llama | 语言 | 在 Vertex AI 上部署 Meta 的 Code Llama 基础模型(7B、13B、34B)。 | 模型卡片 |
Falcon-instruct | 语言 | 使用 PEFT 微调和部署 Falcon-instruct 模型(7B、40B)。 | Colab 模型卡片 |
OpenLLaMA | 语言 | 使用 PEFT 微调和部署 OpenLLaMA 模型(3B、7B、13B)。 | Colab 模型卡片 |
T5-FLAN | 语言 | 微调和部署 T5-FLAN(基础、小、大)。 | 模型卡片(包含微调流水线) |
BERT | 语言 | 使用 PEFT 微调和部署 BERT。 | Colab 模型卡片 |
BART-large-cnn | 语言 | 部署 BART,这是一个转换器编码器-编码器 (seq2seq) 模型,具有双向(类似于 BERT)编码器和自动回归(类似于 GPT)解码器。 | Colab 模型卡片 |
RoBERTa-large | 语言 | 使用 PEFT 微调和部署 RoBERTa-large。 | Colab 模型卡片 |
XLM-RoBERTa-large | 语言 | 使用 PEFT 微调和部署 XLM-RoBERTa-large(多语言版 RoBERTa)。 | Colab 模型卡片 |
Dolly-v2-7b | 语言 | 部署 Dolly-v2-7b,这是一个具有 69 亿个参数的指令跟踪大型语言模型。 | Colab 模型卡片 |
Stable Diffusion XL v1.0 | 语言、视觉 | 部署 Stable Diffusion XL v1.0,它支持文字转图片。 | Colab 模型卡片 |
Stable Diffusion XL Lightning | 语言、视觉 | 部署 Stable Diffusion XL Lightning,这是一种文字转图片生成模型。 | Colab 模型卡片 |
Stable Diffusion v2.1 | 语言、视觉 | 使用 Dreambooth 微调和部署 Stable Diffusion v2.1(支持文字转图片)。 | Colab 模型卡片 |
Stable Diffusion 4x upscaler | 语言、视觉 | 部署 Stable Diffusion 4x upscaler,它支持文本条件式图片超分辨率。 | Colab 模型卡片 |
InstructPix2Pix | 语言、视觉 | 部署 InstructPix2Pix,它支持使用文本提示来编辑图片。 | Colab 模型卡片 |
Stable Diffusion Inpainting | 语言、视觉 | 微调和部署 Stable Diffusion Inpainting,它支持使用文本提示来修复遮盖图片。 | Colab 模型卡片 |
SAM | 语言、视觉 | 部署 Segment Anything,它支持零镜头图像分割。 | Colab 模型卡片 |
Text-to-video (ModelScope) | 语言、视觉 | 部署 ModelScope text-to-video,它支持文字转视频。 | Colab 模型卡片 |
Pic2Word Composed Image Retrieval | 语言、视觉 | 部署 Pic2Word,它支持多模态合成图片检索。 | Colab 模型卡片 |
BLIP2 | 语言、视觉 | 部署 BLIP2,它支持图片描述和视觉问答。 | Colab 模型卡片 |
Open-CLIP | 语言、视觉 | 微调和部署 Open-CLIP,它支持零镜头分类。 | Colab 模型卡片 |
F-VLM | 语言、视觉 | 部署 F-VLM,它支持开放词汇图片对象检测。 | Colab 模型卡片 |
tfhub/EfficientNetV2 | Vision | 微调和部署 EfficientNetV2 图片分类模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
EfficientNetV2 (TIMM) | Vision | 微调和部署 EfficientNetV2 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
Proprietary/EfficientNetV2 | Vision | 微调和部署 EfficientNetV2 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
EfficientNetLite (MediaPipe) | Vision | 通过 MediaPipe Model Maker 微调 EfficientNetLite 图片分类模型。 | Colab 模型卡片 |
tfvision/vit | Vision | 微调和部署 ViT 图片分类模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
ViT (TIMM) | Vision | 微调和部署 ViT 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
Proprietary/ViT | Vision | 微调和部署 ViT 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
Proprietary/MaxViT | Vision | 微调和部署 MaxViT 混合 (CNN + ViT) 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
ViT (JAX) | Vision | 微调和部署 ViT 图片分类模型的 JAX 实现。 | Colab 模型卡片 |
tfvision/SpineNet | Vision | 微调和部署 SpineNet 对象检测模型的 Tensorflow Vision 实现。 | Colab 模型卡片 |
Proprietary/Spinenet | Vision | 微调和部署 SpineNet 对象检测模型的 Google 专有检查点。 | Colab 模型卡片 |
tfvision/YOLO | Vision | 微调和部署 YOLO 单阶段对象检测模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
Proprietary/YOLO | Vision | 微调和部署 YOLO 单阶段对象检测模型的 Google 专有检查点。 | Colab 模型卡片 |
YOLOv8 (Keras) | Vision | 微调和部署 YOLOv8 对象检测模型的 Keras 实现。 | Colab 模型卡片 |
tfvision/YOLOv7 | Vision | 微调和部署 YOLOv7 对象检测模型。 | Colab 模型卡片 |
ByteTrack Video Object Tracking | Vision | 使用 ByteTrack 跟踪器运行用于视频对象跟踪的批量预测。 | Colab 模型卡片 |
ResNeSt (TIMM) | Vision | 微调和部署 ResNeSt 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
ConvNeXt (TIMM) | Vision | 微调和部署 ConvNeXt,这是一种用于图片分类的纯卷积模型,其灵感来自 Vision Transformer 的设计。 | Colab 模型卡片 |
CspNet (TIMM) | Vision | 微调和部署 CSPNet (Cross Stage Partial Network) 图片分类模型。 | Colab 模型卡片 |
Inception (TIMM) | Vision | 微调和部署 Inception 图片分类模型。 | Colab 模型卡片 |
DeepLabv3+(带检查点) | Vision | 微调和部署 DeepLab-v3 Plus 语义图像分割模型。 | Colab 模型卡片 |
Faster R-CNN (Detectron2) | Vision | 微调和部署 Faster R-CNN 图片对象检测模型的 Detectron2 实现。 | Colab 模型卡片 |
RetinaNet (Detectron2) | Vision | 微调和部署 RetinaNet 图片对象检测模型的 Detectron2 实现。 | Colab 模型卡片 |
Mask R-CNN (Detectron2) | Vision | 微调和部署 Mask R-CNN 图片对象检测和分割模型的 Detectron2 实现。 | Colab 模型卡片 |
ControlNet | Vision | 微调和部署 ControlNet 文字转图片生成模型。 | Colab 模型卡片 |
MobileNet (TIMM) | Vision | 微调和部署 MobileNet 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
MobileNetV2 (MediaPipe) Image Classification | Vision | 使用 MediaPipe Model Maker 微调 MobileNetV2 图片分类模型。 | Colab 模型卡片 |
MobileNetV2 (MediaPipe) Object Detection | Vision | 使用 MediaPipe Model Maker 微调 MobileNetV2 对象检测模型。 | Colab 模型卡片 |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | 使用 MediaPipe Model Maker 微调 MobileNet-MultiHW-AVG 对象检测模型。 | Colab 模型卡片 |
DeiT | Vision | 微调和部署 DeiT(数据高效的图片转换器)图片分类模型。 | Colab 模型卡片 |
BEiT | Vision | 微调和部署 BEiT(图片转换器的双向编码器表示法)图片分类模型。 | Colab 模型卡片 |
Hand Gesture Recognition (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 Hand Gesture Recognition 模型。 | Colab 模型卡片 |
Average Word Embedding Classifier (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 Average Word Embedding Classifier 模型。 | Colab 模型卡片 |
MobileBERT Classifier (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 MobileBERT Classifier 模型。 | Colab 模型卡片 |
MoViNet Video Clip Classification | 视频 | 微调和部署 MoViNet 视频片段分类模型。 | Colab 模型卡片 |
MoViNet Video Action Recognition | 视频 | 微调和部署 MoViNet 动作识别推理模型。 | Colab 模型卡片 |
Stable Diffusion XL LCM | Vision | 部署此模型,它使用潜在一致性模型 (LCM) 增强潜在 Diffusion 模型中的文本转图片生成,可通过更少的步骤更快生成高质量的图片。 | Colab 模型卡片 |
LLaVA 1.5 | 视觉、语言 | 部署 LLaVA 1.5 模型。 | Colab 模型卡片 |
Pytorch-ZipNeRF | 视觉、视频 | 训练 Pytorch-ZipNeRF 模型,它是 Pytorch 框架中最先进的 ZipNeRF 算法实现,专门用于根据 2D 图像进行高效准确的 3D 重建。 | Colab 模型卡片 |
Mixtral | 语言 | 部署 Mixtral 模型,它是 Mistral AI 开发的混合专家 (MoE) 大语言模型 (LLM)。 | 模型卡片 |
Llama 2(量化) | 语言 | 微调和部署 Meta 的 Llama 2 模型的量化版本。 | Colab 模型卡片 |
LaMa (Large Mask Inpainting) | Vision | 部署 LaMa,它使用快速傅立叶卷积 (FFC)、高感受野感知损失和大型训练掩膜,可以实现高分辨率的图像修复。 | Colab 模型卡片 |
AutoGluon | 表格 | 利用 AutoGluon,您可以为表格数据训练和部署高准确率的机器学习模型和深度学习模型。 | Colab 模型卡片 |
MaMMUT | 语言、视觉 | 视觉编码器和文本解码器架构,适用于多模态任务,例如视觉问答、图片文本检索、文本图片检索以及多模态嵌入生成。 | Colab 模型卡片 |
Model Garden 中提供的合作伙伴模型列表
某些合作伙伴模型在 Vertex AI Model Garden 上以托管式 API(也称为模型即服务)的形式提供。下表列出了 Model Garden 中由 Google 合作伙伴提供的模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Anthropic Claude 3.5 Sonnet | 语言 | Anthropic 最强大的 AI 模型,保持了 Anthropic Claude 3 Sonnet 的速度和费用。 | 模型卡片 |
Anthropic Claude 3 Opus | 语言 | Anthropic 第二强大的 AI 模型,在高度复杂的任务上表现出色。 | 模型卡片 |
Anthropic Claude 3 Haiku | 语言 | Anthropic 最快且最紧凑的视觉和文本模型,可针对简单查询提供快速回答。 其旨在打造模仿真人互动的 AI 体验。 | 模型卡片 |
Anthropic Claude 3 Sonnet | 语言 | 一种视觉和文本模型,可平衡性能和速度以处理企业工作负载。该模型专为低成本、缩放式 AI 部署而设计。 | 模型卡片 |
Jamba 1.5 Large(预览版) | 语言 | AI21 Labs 的 Jamba 1.5 Large 旨在提供优质的回答、高吞吐量,并且价格与同类别的其他模型相比具有竞争力。 | 模型卡片 |
Jamba 1.5 Mini(预览版) | 语言 | AI21 Labs 的 Jamba 1.5 Mini 在质量、吞吐量和低成本方面取得了良好的平衡。 | 模型卡片 |
Llama 3.2(预览版) | 语言、视觉 | 中型 90B 多模态模型,可支持图片推理,例如图表和图表分析以及图片标注。 | 模型卡片 |
Llama 3.1(预览版) | 语言 | 一组针对多语言对话应用场景进行了优化的多语言 LLM,在常见的行业基准中优于许多可用的开源和封闭式聊天模型。 | 模型卡片 |
Mistral Large (2407) | 语言 | Mistral Large (2407) 是 Mistral AI 用于文本生成的旗舰级模型。它达到了顶级推理能力,可用于复杂的多语言任务,包括文本理解、转换和代码生成。 | 模型卡片 |
Mistral Nemo | 语言 | Mistral AI 最具成本效益的专有模型。使用 Mistral Nemo 低延迟工作负载以及可批量完成的简单任务,例如分类、客户服务和文本生成。 | 模型卡片 |
Codestral | 代码 | 专为代码生成而设计和优化的生成模型。您可以使用 Codestral 设计高级 AI 应用。 | 模型卡片 |
如何使用模型卡片
点击模型卡片可使用与其关联的模型。例如,您可以点击模型卡片来测试提示、调优模型、创建应用和查看代码示例。
如需了解如何使用与模型卡片关联的模型,请点击以下标签页之一:
测试提示
使用 Vertex AI PaLM API 模型卡片来测试提示。
在 Google Cloud 控制台中,转到 Model Garden 页面。
找到要测试的受支持模型,然后点击查看详细信息。
点击打开提示设计。
您将转到提示设计页面。
在提示符中,输入要测试的提示。
可选:配置模型参数。
点击提交。
调整模型
如需调整支持的模型,请使用 Vertex AI 流水线或笔记本。
使用流水线进行微调
BERT 和 T5-FLAN 模型支持使用流水线进行模型调整。
在 Google Cloud 控制台中,转到 Model Garden 页面。
在搜索模型中,输入 BERT 或 T5-FLAN,然后点击放大镜以进行搜索。
点击 T5-FLAN 或 BERT 模型卡片上的查看详细信息。
点击打开微调流水线。
您将进入 Vertex AI 流水线页面。
如需开始调整,请点击创建运行。
在笔记本中调整
大多数开源基础模型和可微调模型的模型卡都支持在笔记本中进行调整。
在 Google Cloud 控制台中,转到 Model Garden 页面。
找到要调节的支持模型,然后点击查看详细信息。
点击打开笔记本。
部署模型
您可以从模型卡片(例如 Stable Diffusion)部署模型。部署模型时,您可以选择使用 Compute Engine 预留。如需了解详情,请参阅将预留与预测搭配使用。
在 Google Cloud 控制台中,转到 Model Garden 页面。
找到要部署的受支持模型,然后点击其模型卡片。
点击部署以打开部署模型窗格。
在部署模型窗格中,指定部署的详细信息。
- 使用或修改生成的模型和端点名称。
- 选择要创建模型端点的位置。
- 选择要为部署的每个节点使用的机器类型。
如需使用 Compute Engine 预留,请在部署设置部分下选择高级。
在预留类型字段中,选择预留类型。预留必须符合您指定的机器规格。
- 自动使用已创建的预留:Vertex AI 会自动选择具有匹配属性的允许预留。如果自动选择的预留资源中没有容量,Vertex AI 会使用常规 Google Cloud 资源池。
- 选择特定预留:Vertex AI 使用特定预留。如果所选预留没有空位,系统会抛出错误。
- 不使用(默认):Vertex AI 使用常规 Google Cloud 资源池。此值的效果与不指定预留相同。
点击部署。
查看代码示例
特定于任务的解决方案模型的大多数模型卡都包含您可以复制和测试的代码示例。
在 Google Cloud 控制台中,转到 Model Garden 页面。
找到要查看其代码示例的支持模型,然后点击文档标签页。
页面会滚动到文档部分,其中嵌入了示例代码。
创建视觉应用
适用计算机视觉模型的模型卡支持创建视觉应用。
在 Google Cloud 控制台中,转到 Model Garden 页面。
在“针对特定任务的解决方案”部分中找到要用于创建视觉应用的视觉模型,然后点击查看详细信息。
点击构建应用。
您将进入 Vertex AI Vision。
在应用名称中,输入应用的名称,然后点击继续。
选择结算方案,然后点击创建。
您将进入 Vertex AI Vision Studio,可以继续创建计算机视觉应用。
价格
对于 Model Garden 中的开源模型,您需要为在 Vertex AI 上使用以下各项付费:
- 模型调优:您需要按与自定义训练相同的费率为使用的计算资源付费。请参阅自定义训练价格。
- 模型部署:您需要为将模型部署到端点所使用的计算资源付费。请参阅预测价格。
- Colab Enterprise:请参阅 Colab Enterprise 价格。
控制对特定模型的访问权限
您可以在组织、文件夹或项目级设置 Model Garden 组织政策,以控制对 Model Garden 中特定模型的访问权限。例如,您可以允许用户访问您已审核的特定模型,并拒绝访问所有其他模型。
后续步骤
- 了解负责任的 AI 最佳实践和 Vertex AI 的安全过滤条件。
- 了解 Vertex AI 上的生成式 AI。
- 了解如何调整基础模型。