本页面从概念上简要介绍了 Google Kubernetes Engine (GKE) 如何处理 AI/ML 工作负载。GKE 是由 Google 管理的 Kubernetes 开源容器编排平台。
Google Kubernetes Engine 提供了一个可伸缩、灵活且经济实惠的平台,用于运行所有容器化工作负载,包括人工智能和机器学习 (AI/ML) 应用。无论您是训练大型基础模型、大规模处理推理请求,还是构建全面的 AI 平台,GKE 都能提供所需的控制力和性能。
本页面适用于正在寻找可伸缩、自动化的托管式 Kubernetes 解决方案来运行 AI/ML 工作负载的数据和 AI 专家、云架构师、运维人员和开发者。如需详细了解常见角色,请参阅常见的 GKE 用户角色和任务。
开始在 GKE 上使用 AI/机器学习工作负载
您可以使用 GKE 的免费层级,这使您无需支付集群管理费用即可开始使用 Kubernetes,只需几分钟即可开始探索 GKE。
- 不妨试用以下快速入门:
- 在 GKE 上进行推理:在 GKE 上部署 AI 大语言模型 (LLM),以使用预定义的架构进行推理。
- 在 GKE 上训练:在 GKE 上部署 AI 训练模型,并将预测结果存储在 Cloud Storage 中。
- 阅读关于 AI/机器学习工作负载的加速器消耗选项,其中提供了规划和获取平台加速器(GPU 和 TPU)的指导和资源。
常见使用场景
GKE 提供了一个统一的平台,可支持您的所有 AI 工作负载。
- 构建 AI 平台:对于企业平台团队,GKE 提供了灵活性,可用于构建满足各种需求的标准化多租户平台。
- 低延迟在线服务:对于构建生成式 AI 应用的开发者,GKE 与推理网关相结合可提供所需的优化路由和自动扩缩功能,从而在控制成本的同时提供出色的用户体验。
为 AI/机器学习工作负载选择合适的平台
Google Cloud 提供各种 AI 基础架构产品,从全代管式到完全可配置,可支持您的机器学习之旅。选择合适的平台取决于您对控制、灵活性和管理级别的具体需求。
如果您需要深度控制、可移植性以及构建自定义高性能 AI 平台的能力,请选择 GKE。
- 基础设施控制和灵活性:您需要高度控制基础设施,需要使用自定义流水线,或需要内核级自定义。
- 大规模训练和推理:您希望利用 GKE 的伸缩功能和高性能来训练极大型模型或以极低延迟提供模型服务。
- 大规模实现成本效益:您希望优先考虑成本优化,通过将 GKE 与 Spot 虚拟机和灵活启动虚拟机集成,有效管理成本。
- 可移植性和开放标准:您希望避免供应商锁定,并希望借助 Kubernetes 在任何地方运行工作负载,并且您已经具备 Kubernetes 方面的专业知识或制定了多云策略。
您还可以考虑以下替代方案:
Google Cloud 服务 | 适用场景 |
---|---|
Vertex AI | 一个全代管式端到端平台,可加快开发速度并分担基础架构管理负担。非常适合专注于 MLOps 和快速实现价值的团队。如需了解详情,请观看选择自托管 GKE 和托管 Vertex AI 来托管 AI 模型。 |
Cloud Run | 一个无服务器平台,用于运行可缩减至零的容器化推理工作负载。非常适合事件驱动型应用,并能以经济高效的方式部署较小的模型。如需深入比较,请参阅 GKE 和 Cloud Run。 |
GKE 如何为 AI/机器学习工作负载提供支持
GKE 提供了一套专用组件,可简化并加速 AI/机器学习生命周期的各个阶段,从大规模训练到低延迟推理。
下表总结了支持 AI/ML 工作负载或运营目标的 GKE 功能。
AI/机器学习工作负载或操作 | GKE 如何为您提供支持 | 主要特性 |
---|---|---|
推理和投放 | 经过优化,可弹性部署 AI 模型,具有低延迟、高吞吐量和高成本效益。 |
|
训练和微调 | 提供高效训练超大型模型所需的规模和编排功能,同时最大限度地降低成本。 |
|
统一的 AI/机器学习开发 | 为 Ray 提供代管式支持,Ray 是一种用于伸缩分布式 Python 应用的开源框架。 |
|
后续步骤
- 如需探索我们针对在 GKE 上运行 AI/机器学习工作负载而提供的丰富官方指南、教程和其他资源,请访问 GKE 上的 AI/机器学习编排门户。
- 了解在 GKE 上为 AI/机器学习工作负载获取计算加速器(例如 GPU 或 TPU)的技术。
- 了解 GKE 上的 AI/机器学习模型推理。
- 了解 Ray on GKE。
- 在 GKE AI 实验室中探索利用 GKE 加速 AI/机器学习计划的实验性示例。