使用 Hugging Face 模型

Hugging Face 提供预训练模型、微调脚本和开发 API，让您可以更轻松地创建和发现大语言模型 (LLM)。Model Garden 可在 HuggingFace 中提供文本嵌入、文本转图片、文本生成和图片文本转文本模型。

适用于 Hugging Face 模型的部署选项

您可以在 Vertex AI 或 Google Kubernetes Engine (GKE) 中部署支持的 Hugging Face 模型。您选择的部署选项可能取决于您使用的模型以及您希望对工作负载拥有多大的控制权。

在 Vertex AI 中部署

Vertex AI 提供了一个托管式平台，无需内部 MLOps 专业知识，即可构建和缩放机器学习项目。您可以将 Vertex AI 用作提供 Hugging Face 模型的下游应用。如果您需要端到端 MLOps 功能、增值机器学习功能以及无服务器体验（用于简化开发），我们建议您使用 Vertex AI。

如需在 Vertex AI 中部署支持的 Hugging Face 模型，请前往 Model Garden。

转到 Model Garden
前往 Hugging Face 上的开源模型部分，然后点击显示更多。
查找并选择要部署的模型。
可选：对于部署环境，选择 Vertex AI。
可选：指定部署详细信息。
点击部署。

如需开始使用，请参阅以下示例：

某些模型具有详细的模型卡片，并且部署设置已经过 Google 验证，例如 google/gemma-3-27b-it、meta-llama/Llama-4-Scout-17B-16E-Instruct、Qwen/QwQ-32B、BAAI/bge-m3、intfloat/multilingual-e5-large-instruct、black-forest-labs/FLUX.1-dev 和 HuggingFaceFW/fineweb-edu-classifier。
某些模型的部署设置已经过 Google 验证，但没有详细的模型卡片，例如 NousResearch/Genstruct-7B。
某些模型的部署设置会自动生成。
某些模型具有基于模型元数据的自动生成的部署设置，例如文本生成、文本嵌入、文本转图片生成和图片文本转文本方面的一些最新热门模型。

在 GKE 中部署

Google Kubernetes Engine (GKE) 是托管式 Kubernetes 的 Google Cloud 解决方案，它提供可伸缩性、安全性、弹性和成本效益。如果您已有 Kubernetes 投资，您的组织拥有内部 MLOps 专业知识，或者您需要对复杂的 AI/机器学习工作负载进行精细控制并在安全性、数据流水线和资源管理方面具有独特的要求，则建议您使用此选项。

如需在 GKE 中部署支持的 Hugging Face 模型，请前往 Model Garden。

转到 Model Garden
前往 Hugging Face 上的开源模型部分，然后点击显示更多。
查找并选择要部署的模型。
对于部署环境，选择 GKE。
按照部署说明操作。

如需开始使用，请参阅以下示例：

某些模型具有详细的模型卡片和经过验证的部署设置，例如 google/gemma-3-27b-it、meta-llama/Llama-4-Scout-17B-16E-Instruct 和 Qwen/QwQ-32B。
某些模型具有经过验证的部署设置，但没有详细的模型卡片，例如 NousResearch/Genstruct-7B。

“受 Vertex AI 支持”是什么意思？

我们会自动将最新、最热门的 Hugging Face 模型添加到 Model Garden 中。此过程包括为每个模型自动生成部署配置。

为解决有关漏洞和恶意代码的问题，我们每天都会使用 Hugging Face 恶意软件扫描工具评估每个 Hugging Face 模型仓库中文件的安全性。如果某个模型仓库被标记为包含恶意软件，我们会立即从 Hugging Face 库页面中移除相应模型。

虽然指定为受 Vertex AI 支持的模型表示已经过测试并可在 Vertex AI 上部署，但我们不保证不存在漏洞或恶意代码。我们建议您在生产环境中部署任何模型之前，自行进行安全验证。

针对特定应用场景对部署配置进行调优

鉴于应用场景范围广泛，并且在延迟时间、吞吐量、费用和准确率方面有不同的优先级，一键式部署选项提供的默认部署配置无法满足所有要求。

因此，您可以在开始时尝试一键式部署来建立基准，然后使用 Colab 笔记本（vLLM、TGI、TEI、HF pytorch 推理）或 Python SDK 对部署配置进行微调。这种迭代式方法可让您根据自己的确切需求量身定制部署，从而为特定应用实现尽可能最佳的性能。

如果您需要的模型未在 Model Garden 中列出，该怎么办

如果您所查找的特定模型未在 Model Garden 中列出，则表示 Vertex AI 不支持该模型。以下部分将介绍原因以及您可以采取的方案。

为什么未列出模型？

以下原因说明了为什么某个模型可能未出现在 Model Garden 中：

它不是热门模型：我们通常会优先考虑广受欢迎且社区具有浓厚兴趣的模型。
尚不兼容：模型可能无法与支持的服务容器搭配使用。例如，用于 text-generation 和 image-text-to-text 模型的 vLLM 容器。
流水线任务不受支持：模型具有我们目前尚未完全支持的任务。我们支持以下任务：text-generation、text2text-generation、text-to-image、feature-extraction、sentence-similarity 和 image-text-to-text。

您可采用哪些方案？

您仍然可以使用 Model Garden 中提供的模型：

使用 Colab 笔记本自行部署：我们提供了以下 Colab 笔记本：（vLLM、TGI、TEI、HF pytorch 推理），使您可灵活地部署具有自定义配置的模型。这样一来，您便可以完全控制整个流程。
提交功能请求：与支持工程师合作，通过 Model Garden 提交功能请求，或参阅 Vertex 生成式 AI 支持以获取更多帮助。
密切关注更新：我们会定期向 Model Garden 添加新模型。您所查找的模型可能会在将来提供，请定期回来查看！