Google 的第一方模型列表
下表列出了 Model Garden 中提供的 Google 第一方模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Gemini 2.0 Flash | 语言、音频、视觉 | 所有日常任务和功能的核心模型,可提升性能并支持实时 Live API。 | 模型卡片 |
Gemini 2.0 Flash-Lite(预览版) | 语言、音频、视觉 | 最快、最具成本效益的 Flash 模型。它提供的质量比 1.5 更好,但价格和速度相同。 | 模型卡片 |
Gemini 2.0 Pro (Experimental) | 语言、音频、视觉 | Google 最强大的编码和世界知识模型,具有 200 万个字符的上下文窗口。 | 模型卡片 |
Gemini 1.5 Flash | 语言、音频、视觉 | 最快、最具成本效益的多模态 Gemini 模型。它专为高数据量任务和对延迟敏感且经济实惠的应用而构建。由于 Gemini 1.5 Flash 响应速度很快,因此非常适合用于创建聊天助理和点播内容生成应用。 | 模型卡片 |
Gemini 1.5 Pro | 语言、音频、视觉 | 此多模态模型支持在文本或聊天提示中添加图片、音频、视频和 PDF 文件,以提供文本或代码回答。 | 模型卡片 |
Gemini 1.0 Pro | 语言 | 主要用于处理自然语言任务、多轮文本、代码聊天和代码生成。 | 模型卡片 |
Gemini 1.0 Pro Vision | 语言、视觉 | 此多模态模型支持在文本或聊天提示中添加图片、视频和 PDF 文件,以提供文本或代码回答。 | 模型卡片 |
PaLM 2 for Text | 语言 | 专门为了遵循自然语言指令而进行了调优,适用于各种语言任务。 | 模型卡片 |
PaLM 2 for Chat | 语言 | 经过微调,可以进行自然对话。使用此模型构建和自定义您自己的聊天机器人应用。 | 模型卡片 |
Codey for Code Completion | 语言 | 根据代码提示生成代码。适合用于提供代码建议以及最大限度地减少代码中的 bug。 | 模型卡片 |
Codey for Code Generation | 语言 | 根据自然语言输入生成代码。适合用于编写函数、类、单元测试等。 | 模型卡片 |
Codey for Code Chat | 语言 | 通过自然对话获得与代码相关的帮助。适合有关 API 的问题、支持的语言的语法等。 | 模型卡片 |
Embeddings for Text | 语言 | 将文本数据转换为可由机器学习算法(尤其是大型模型)处理的数值向量。 | 模型卡片 |
Imagen for Image Generation | Vision | 使用文本提示大规模创建工作室级图片。您还可以使用此模型放大图片。 | 模型卡片 |
用于修改和自定义的 Imagen | Vision | 使用基础图片和文本提示,或使用参考图片和文本提示,修改或利用少样本学习大规模创建工作室级图片。 | 模型卡片 |
Vertex 图像分割(预览版) | Vision | 使用文本提示或绘制涂鸦来对图片进行分割。借助图像分割,您可以检测对象、移除图片背景或分割图片前景。 | 模型卡片 |
Imagen for Captioning & VQA | 语言 | 为给定图片生成相关说明。 | 模型卡片 |
Embeddings for Multimodal | Vision | 基于图片生成向量,这些向量可用于图片分类和图片搜索等下游任务。 | 模型卡片 |
Chirp | 语音 | 通用语音模型的一个版本,包含超过 20 亿个参数,可在单个模型中转写 100 多种语言。 | 模型卡片 |
Model Garden 中使用开源调优或服务配方的模型列表
下表列出了 Model Garden 中支持开源调优或服务配方的 OSS 模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Llama 3.3 | 语言 | Meta Llama 3.3 多语言大语言模型 (LLM) 是一款经过预训练和指令调优的生成模型,大小为 70B(文本输入/文本输出)。 | 模型卡片 |
Flux | Vision | 一个拥有 12 亿参数的 rectified flow transformer 模型,可根据文本描述生成高质量的图片。 | 模型卡片 |
提示保护 | 语言 | 防范大语言模型输入的越狱技术和间接注入。 | 模型卡片 |
Llama 3.2 | 语言 | 一组多语言的大语言模型,即经过预训练和指令调优的生成模型,大小为 1B 和 3B。 | 模型卡片 |
Llama 3.2-Vision | 语言、视觉 | 一组多模态大型语言模型,这些模型是经过预训练和指令调优的图像推理生成模型,大小为 11B 和 90B。这些模型针对视觉识别、图片推理、图说和回答有关图片的常规问题进行了优化。 | 模型卡片 |
Llama Guard 3 | 语言 | 经过针对内容安全性分类进行微调的 Llama-3.1-8B 预训练模型。 | 模型卡片 |
Qwen2 | 语言 | 部署基础大语言模型系列 Qwen2。 | Colab 模型卡片 |
Phi-3 | 语言 | 部署基础大语言模型系列 Phi-3。 | Colab 模型卡片 |
E5 | 语言 | 部署 E5(文本嵌入模型系列)。 | Colab 模型卡片 |
Instant ID | 语言、视觉 | 部署 Instant ID,这是一种保护身份的文字转图片生成模型。 | Colab 模型卡片 |
Llama 3 | 语言 | 在 Vertex AI 上使用 Meta 的 Llama 3 模型(8B、70B、405B)进行探索和构建。 | 模型卡片 |
Gemma 2 | 语言 | 开放式权重模型(9B、27B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Gemma | 语言 | 开放式权重模型(2B、7B),基于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
CodeGemma | 语言 | 开放式权重模型(2B、7B)(专为代码生成和代码补全而设计的模型)使用用于创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
PaliGemma | 语言 | 开放权重 3B 模型(专为图片标注任务和视觉问答任务而设计的模型)使用创建 Google Gemini 模型所用的研究和技术构建而成。 | 模型卡片 |
Vicuna v1.5 | 语言 | 部署 Vicuna v1.5 系列模型,它们是根据 LLama2 微调的基础模型,用于文本生成。 | 模型卡片 |
NLLB | 语言 | 部署 nllb 系列模型,用于多语言翻译。 | 模型卡片 Colab |
Mistral-7B | 语言 | 部署 Mistral-7B,这是一个用于文本生成的基础模型。 | 模型卡片 |
BioGPT | 语言 | 部署 BioGPT,这是一种用于生物医学领域的文本生成模型。 | 模型卡片 Colab |
BiomedCLIP | 语言、视觉 | 部署 BiomedCLIP,这是一种用于生物医学领域的多模态基础模型。 | 模型卡片 Colab |
ImageBind | 语言、视觉、 音频 |
部署 ImageBind,这是一种用于多模态嵌入的基础模型。 | 模型卡片 Colab |
DITO | 语言、视觉 | 微调和部署 DITO,这是一种用于开放词汇对象检测任务的多模态基础模型。 | 模型卡片 Colab |
OWL-ViT v2 | 语言、视觉 | 部署 OWL-ViT v2,这是一种用于开放词汇对象检测任务的多模态基础模型。 | 模型卡片 Colab |
FaceStylizer (Mediapipe) | Vision | 将人脸图像转换为新风格的生成式流水线。 | 模型卡片 Colab |
Llama 2 | 语言 | 在 Vertex AI 上微调和部署 Meta 的 Llama 2 基础模型(7B、13B、70B)。 | 模型卡片 |
Code Llama | 语言 | 在 Vertex AI 上部署 Meta 的 Code Llama 基础模型(7B、13B、34B)。 | 模型卡片 |
Falcon-instruct | 语言 | 使用 PEFT 微调和部署 Falcon-instruct 模型(7B、40B)。 | Colab 模型卡片 |
OpenLLaMA | 语言 | 使用 PEFT 微调和部署 OpenLLaMA 模型(3B、7B、13B)。 | Colab 模型卡片 |
T5-FLAN | 语言 | 微调和部署 T5-FLAN(基础、小、大)。 | 模型卡片(包含微调流水线) |
BERT | 语言 | 使用 PEFT 微调和部署 BERT。 | Colab 模型卡片 |
BART-large-cnn | 语言 | 部署 BART,这是一个转换器编码器-编码器 (seq2seq) 模型,具有双向(类似于 BERT)编码器和自动回归(类似于 GPT)解码器。 | Colab 模型卡片 |
RoBERTa-large | 语言 | 使用 PEFT 微调和部署 RoBERTa-large。 | Colab 模型卡片 |
XLM-RoBERTa-large | 语言 | 使用 PEFT 微调和部署 XLM-RoBERTa-large(多语言版 RoBERTa)。 | Colab 模型卡片 |
Dolly-v2-7b | 语言 | 部署 Dolly-v2-7b,这是一个具有 69 亿个参数的指令跟踪大型语言模型。 | Colab 模型卡片 |
Stable Diffusion XL v1.0 | 语言、视觉 | 部署 Stable Diffusion XL v1.0,它支持文字转图片。 | Colab 模型卡片 |
Stable Diffusion XL Lightning | 语言、视觉 | 部署 Stable Diffusion XL Lightning,这是一种文字转图片生成模型。 | Colab 模型卡片 |
Stable Diffusion v2.1 | 语言、视觉 | 使用 Dreambooth 微调和部署 Stable Diffusion v2.1(支持文字转图片)。 | Colab 模型卡片 |
Stable Diffusion 4x upscaler | 语言、视觉 | 部署 Stable Diffusion 4x upscaler,它支持文本条件式图片超分辨率。 | Colab 模型卡片 |
InstructPix2Pix | 语言、视觉 | 部署 InstructPix2Pix,它支持使用文本提示来编辑图片。 | Colab 模型卡片 |
Stable Diffusion Inpainting | 语言、视觉 | 微调和部署 Stable Diffusion Inpainting,它支持使用文本提示来修复遮盖图片。 | Colab 模型卡片 |
SAM | 语言、视觉 | 部署 Segment Anything,它支持零镜头图像分割。 | Colab 模型卡片 |
Text-to-video (ModelScope) | 语言、视觉 | 部署 ModelScope text-to-video,它支持文字转视频。 | Colab 模型卡片 |
Pic2Word Composed Image Retrieval | 语言、视觉 | 部署 Pic2Word,它支持多模态合成图片检索。 | Colab 模型卡片 |
BLIP2 | 语言、视觉 | 部署 BLIP2,它支持图片描述和视觉问答。 | Colab 模型卡片 |
Open-CLIP | 语言、视觉 | 微调和部署 Open-CLIP,它支持零镜头分类。 | Colab 模型卡片 |
F-VLM | 语言、视觉 | 部署 F-VLM,它支持开放词汇图片对象检测。 | Colab 模型卡片 |
tfhub/EfficientNetV2 | Vision | 微调和部署 EfficientNetV2 图片分类模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
EfficientNetV2 (TIMM) | Vision | 微调和部署 EfficientNetV2 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
Proprietary/EfficientNetV2 | Vision | 微调和部署 EfficientNetV2 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
EfficientNetLite (MediaPipe) | Vision | 通过 MediaPipe Model Maker 微调 EfficientNetLite 图片分类模型。 | Colab 模型卡片 |
tfvision/vit | Vision | 微调和部署 ViT 图片分类模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
ViT (TIMM) | Vision | 微调和部署 ViT 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
Proprietary/ViT | Vision | 微调和部署 ViT 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
Proprietary/MaxViT | Vision | 微调和部署 MaxViT 混合 (CNN + ViT) 图片分类模型的 Google 专有检查点。 | Colab 模型卡片 |
ViT (JAX) | Vision | 微调和部署 ViT 图片分类模型的 JAX 实现。 | Colab 模型卡片 |
tfvision/SpineNet | Vision | 微调和部署 SpineNet 对象检测模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
Proprietary/Spinenet | Vision | 微调和部署 SpineNet 对象检测模型的 Google 专有检查点。 | Colab 模型卡片 |
tfvision/YOLO | Vision | 微调和部署 YOLO 单阶段对象检测模型的 TensorFlow Vision 实现。 | Colab 模型卡片 |
Proprietary/YOLO | Vision | 微调和部署 YOLO 单阶段对象检测模型的 Google 专有检查点。 | Colab 模型卡片 |
YOLOv8 (Keras) | Vision | 微调和部署 YOLOv8 对象检测模型的 Keras 实现。 | Colab 模型卡片 |
tfvision/YOLOv7 | Vision | 微调和部署 YOLOv7 对象检测模型。 | Colab 模型卡片 |
ByteTrack Video Object Tracking | Vision | 使用 ByteTrack 跟踪器运行用于视频对象跟踪的批量预测。 | Colab 模型卡片 |
ResNeSt (TIMM) | Vision | 微调和部署 ResNeSt 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
ConvNeXt (TIMM) | Vision | 微调和部署 ConvNeXt,这是一种用于图片分类的纯卷积模型,其灵感来自 Vision Transformer 的设计。 | Colab 模型卡片 |
CspNet (TIMM) | Vision | 微调和部署 CSPNet (Cross Stage Partial Network) 图片分类模型。 | Colab 模型卡片 |
Inception (TIMM) | Vision | 微调和部署 Inception 图片分类模型。 | Colab 模型卡片 |
DeepLabv3+(带检查点) | Vision | 微调和部署 DeepLab-v3 Plus 语义图像分割模型。 | Colab 模型卡片 |
Faster R-CNN (Detectron2) | Vision | 微调和部署 Faster R-CNN 图片对象检测模型的 Detectron2 实现。 | Colab 模型卡片 |
RetinaNet (Detectron2) | Vision | 微调和部署 RetinaNet 图片对象检测模型的 Detectron2 实现。 | Colab 模型卡片 |
Mask R-CNN (Detectron2) | Vision | 微调和部署 Mask R-CNN 图片对象检测和分割模型的 Detectron2 实现。 | Colab 模型卡片 |
ControlNet | Vision | 微调和部署 ControlNet 文字转图片生成模型。 | Colab 模型卡片 |
MobileNet (TIMM) | Vision | 微调和部署 MobileNet 图片分类模型的 PyTorch 实现。 | Colab 模型卡片 |
MobileNetV2 (MediaPipe) Image Classification | Vision | 使用 MediaPipe Model Maker 微调 MobileNetV2 图片分类模型。 | Colab 模型卡片 |
MobileNetV2 (MediaPipe) Object Detection | Vision | 使用 MediaPipe Model Maker 微调 MobileNetV2 对象检测模型。 | Colab 模型卡片 |
MobileNet-MultiHW-AVG (MediaPipe) | Vision | 使用 MediaPipe Model Maker 微调 MobileNet-MultiHW-AVG 对象检测模型。 | Colab 模型卡片 |
DeiT | Vision | 微调和部署 DeiT(数据高效的图片转换器)图片分类模型。 | Colab 模型卡片 |
BEiT | Vision | 微调和部署 BEiT(图片转换器的双向编码器表示法)图片分类模型。 | Colab 模型卡片 |
Hand Gesture Recognition (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 Hand Gesture Recognition 模型。 | Colab 模型卡片 |
Average Word Embedding Classifier (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 Average Word Embedding Classifier 模型。 | Colab 模型卡片 |
MobileBERT Classifier (MediaPipe) | Vision | 使用 MediaPipe 微调和部署 MobileBERT Classifier 模型。 | Colab 模型卡片 |
MoViNet Video Clip Classification | 视频 | 微调和部署 MoViNet 视频片段分类模型。 | Colab 模型卡片 |
MoViNet Video Action Recognition | 视频 | 微调和部署 MoViNet 动作识别推理模型。 | Colab 模型卡片 |
Stable Diffusion XL LCM | Vision | 部署此模型,它使用潜在一致性模型 (LCM) 增强潜在 Diffusion 模型中的文本转图片生成,可通过更少的步骤更快生成高质量的图片。 | Colab 模型卡片 |
LLaVA 1.5 | 视觉、语言 | 部署 LLaVA 1.5 模型。 | Colab 模型卡片 |
Pytorch-ZipNeRF | 视觉、视频 | 训练 Pytorch-ZipNeRF 模型,它是 Pytorch 框架中最先进的 ZipNeRF 算法实现,专门用于根据 2D 图像进行高效准确的 3D 重建。 | Colab 模型卡片 |
Mixtral | 语言 | 部署 Mixtral 模型,它是 Mistral AI 开发的混合专家 (MoE) 大语言模型 (LLM)。 | 模型卡片 |
Llama 2(量化) | 语言 | 微调和部署 Meta 的 Llama 2 模型的量化版本。 | Colab 模型卡片 |
LaMa (Large Mask Inpainting) | Vision | 部署 LaMa,它使用快速傅立叶卷积 (FFC)、高感受野感知损失和大型训练掩膜,可以实现高分辨率的图像修复。 | Colab 模型卡片 |
AutoGluon | 表格 | 利用 AutoGluon,您可以为表格数据训练和部署高准确率的机器学习模型和深度学习模型。 | Colab 模型卡片 |
MaMMUT | 语言、视觉 | 视觉编码器和文本解码器架构,适用于多模态任务,例如视觉问答、图片文本检索、文本图片检索以及多模态嵌入生成。 | Colab 模型卡片 |
Whisper Large | 语音 | 部署 Whisper Large,这是 OpenAI 的自动语音识别 (ASR) 领域的最新模型。 | Colab 模型卡片 |
Model Garden 中提供的合作伙伴模型列表
某些合作伙伴模型在 Vertex AI Model Garden 上以托管式 API(也称为模型即服务)的形式提供。下表列出了 Model Garden 中由 Google 合作伙伴提供的模型:
模型名称 | 模态 | 说明 | 快速入门 |
---|---|---|---|
Anthropic 的 Claude 3.5 Sonnet v2 | 语言 | 升级后的 Claude 3.5 Sonnet 是先进的模型,用于处理实际的软件工程任务和智能体功能。Claude 3.5 Sonnet 依靠与其前代产品相同的价格和速度实现了这些进步。 | 模型卡片 |
Anthropic 的 Claude 3.5 Haiku | 语言 | Claude 3.5 Haiku 是 Anthropic 最快且最具成本效益的下一代模型,非常适合速度和经济性重要的应用场景。 | 模型卡片 |
Anthropic 的 Claude 3 Opus | 语言 | 一个强大的 AI 模型,在处理高度复杂的任务时可达到出色的性能。它能够处理开放式提示和背后可能的方案,具有出色的流利度和真人理解能力。 | 模型卡片 |
Anthropic 的 Claude 3 Haiku | 语言 | Anthropic 最快的视觉和文本模型,能够近乎即时地响应基本查询,旨在打造模仿人类互动的无缝 AI 体验。 | 模型卡片 |
Anthropic 的 Claude 3.5 Sonnet | 语言 | Claude 3.5 Sonnet 凭借 Anthropic 的中端模型 Claude 3 Sonnet 的速度和成本,在 Anthropic 的多种评估中优于 Anthropic 的 Claude 3 Opus。 | 模型卡片 |
Jamba 1.5 Large(预览版) | 语言 | AI21 Labs 的 Jamba 1.5 Large 旨在提供优质的回答、高吞吐量,并且价格与同类别的其他模型相比具有竞争力。 | 模型卡片 |
Jamba 1.5 Mini(预览版) | 语言 | AI21 Labs 的 Jamba 1.5 Mini 在质量、吞吐量和低成本方面取得了良好的平衡。 | 模型卡片 |
Llama 3.3(预览版) | 语言 | Llama 3.3 是纯文本 70B 指令调优模型,用于纯文本应用时,相对于 Llama 3.1 70B 和 Llama 3.2 90B,可提供增强的性能。此外,对于某些应用,Llama 3.3 70B 的性能接近 Llama 3.1 405B。 | 模型卡片 |
Llama 3.2(预览版) | 语言、视觉 | 中型 90B 多模态模型,可支持图片推理,例如图表和图表分析以及图片标注。 | 模型卡片 |
Llama 3.1(GA 和预览版) | 语言 |
一组针对多语言对话应用场景进行了优化的多语言 LLM,在常见的行业基准中优于许多可用的开源和封闭式聊天模型。 Llama 3.1 405B 已正式发布 (GA),其定价方式为每 100 万个 token 1 美元。查看价格。 Llama 3.1 8B 和 Llama 3.1 70B 目前处于预览版阶段,可免费使用。 |
模型卡片 |
Mistral Large (24.11) | 语言 | Mistral Large (24.11) 是 Mistral Large (24.07) 模型的下一个版本,现在具有更强的推理和函数调用功能。 | 模型卡片 |
Mistral Nemo | 语言 | Mistral AI 最具成本效益的专有模型。使用 Mistral Nemo 低延迟工作负载以及可批量完成的基本任务,例如分类、客户服务和文本生成。 | 模型卡片 |
Codestral (25.01) | 代码 | 专为代码生成(包括填充中间部分和代码补全)而设计的尖端模型。 | 模型卡片 |