HuggingFace 提供了预训练模型、微调脚本和开发 API,可让创建和发现 LLM 的过程更轻松。Model Garden 支持 Huggingface 中的文本嵌入推理和常规 Pytorch 推理支持的热门模型,以及 HuggingFace 中所有文本生成推理支持的模型。
部署选项
如需部署支持的 Hugging Face 模型,请前往 Model Garden,然后点击从 Hugging Face 部署。
在 Vertex AI 中部署
Vertex AI 提供了一个托管式平台,无需内部 MLOps 专业知识,即可构建和缩放机器学习项目。您可以将 Vertex AI 用作提供 Hugging Face 模型的下游应用。如果您需要端到端 MLOps 功能、增值机器学习功能以及无服务器体验(用于简化开发),我们建议您使用 Vertex AI。
如需开始使用,请参阅以下示例:
- 某些模型具有详细的模型卡片和经过验证的部署设置,例如 google/gemma-7b-it、meta-llama/Llama-2-7b-chat-hf、mistralai/Mistral-7B-v0.1、BAAI/bge-m3、intfloat/multilingual-e5-large-instruct、stabilityai/stable-diffusion-2-1 和 HuggingFaceFW/fineweb-edu-classifier。
- 某些模型具有经过验证的部署设置,但没有详细的模型卡片,例如 NousResearch/Genstruct-7B。
- 某些模型具有自动计算得出的未经验证的部署设置,例如 ai4bharat/Airavata。
在 GKE 中部署
Google Kubernetes Engine (GKE) 是 Google Cloud 的托管式 Kubernetes 解决方案,它提供可伸缩性、安全性、弹性和成本效益。如果您已有 Kubernetes 投资,您的组织拥有内部 MLOps 专业知识,或者您需要对复杂的 AI/机器学习工作负载进行精细控制并在安全性、数据流水线和资源管理方面具有独特的要求,则建议您使用此选项。
如需开始使用,请参阅以下示例:
- 某些模型具有详细的模型卡片和经过验证的部署设置,例如 google/gemma-7b-it、meta-llama/Llama-2-7b-chat-hf 和 mistralai/Mistral-7B-v0.1。
- 某些模型具有经过验证的部署设置,但没有详细的模型卡片,例如 NousResearch/Genstruct-7B。