GKE 上的 AI/机器学习工作负载简介

本页面从概念上简要介绍了 Google Kubernetes Engine (GKE) 如何处理 AI/ML 工作负载。GKE 是由 Google 管理的 Kubernetes 开源容器编排平台。

Google Kubernetes Engine 提供了一个可伸缩、灵活且经济实惠的平台,用于运行所有容器化工作负载,包括人工智能和机器学习 (AI/ML) 应用。无论您是训练大型基础模型、大规模处理推理请求,还是构建全面的 AI 平台,GKE 都能提供所需的控制力和性能。

本页面适用于正在寻找可伸缩、自动化的托管式 Kubernetes 解决方案来运行 AI/ML 工作负载的数据和 AI 专家、云架构师、运维人员和开发者。如需详细了解常见角色,请参阅常见的 GKE 用户角色和任务

开始在 GKE 上使用 AI/机器学习工作负载

您可以使用 GKE 的免费层级,这使您无需支付集群管理费用即可开始使用 Kubernetes,只需几分钟即可开始探索 GKE。

  1. 开始在 Google Cloud 控制台中使用

  2. 不妨试用以下快速入门:
    • 在 GKE 上进行推理:在 GKE 上部署 AI 大语言模型 (LLM),以使用预定义的架构进行推理。
    • 在 GKE 上训练:在 GKE 上部署 AI 训练模型,并将预测结果存储在 Cloud Storage 中。
  3. 阅读关于 AI/机器学习工作负载的加速器消耗选项,其中提供了规划和获取平台加速器(GPU 和 TPU)的指导和资源。

常见使用场景

GKE 提供了一个统一的平台,可支持您的所有 AI 工作负载。

  • 构建 AI 平台:对于企业平台团队,GKE 提供了灵活性,可用于构建满足各种需求的标准化多租户平台。
  • 低延迟在线服务:对于构建生成式 AI 应用的开发者,GKE 与推理网关相结合可提供所需的优化路由和自动扩缩功能,从而在控制成本的同时提供出色的用户体验。

为 AI/机器学习工作负载选择合适的平台

Google Cloud 提供各种 AI 基础架构产品,从全代管式到完全可配置,可支持您的机器学习之旅。选择合适的平台取决于您对控制、灵活性和管理级别的具体需求。

最佳实践

如果您需要深度控制、可移植性以及构建自定义高性能 AI 平台的能力,请选择 GKE。

  • 基础设施控制和灵活性:您需要高度控制基础设施,需要使用自定义流水线,或需要内核级自定义。
  • 大规模训练和推理:您希望利用 GKE 的伸缩功能和高性能来训练极大型模型或以极低延迟提供模型服务。
  • 大规模实现成本效益:您希望优先考虑成本优化,通过将 GKE 与 Spot 虚拟机和灵活启动虚拟机集成,有效管理成本。
  • 可移植性和开放标准:您希望避免供应商锁定,并希望借助 Kubernetes 在任何地方运行工作负载,并且您已经具备 Kubernetes 方面的专业知识或制定了多云策略。

您还可以考虑以下替代方案:

Google Cloud 服务 适用场景
Vertex AI 一个全代管式端到端平台,可加快开发速度并分担基础架构管理负担。非常适合专注于 MLOps 和快速实现价值的团队。如需了解详情,请观看选择自托管 GKE 和托管 Vertex AI 来托管 AI 模型
Cloud Run 一个无服务器平台,用于运行可缩减至零的容器化推理工作负载。非常适合事件驱动型应用,并能以经济高效的方式部署较小的模型。如需深入比较,请参阅 GKE 和 Cloud Run

GKE 如何为 AI/机器学习工作负载提供支持

GKE 提供了一套专用组件,可简化并加速 AI/机器学习生命周期的各个阶段,从大规模训练到低延迟推理。

在下图中,GKE 位于 Google Cloud中,可以使用不同的云存储选项(例如 Cloud Storage FUSE 和 Managed Lustre)和不同的云基础架构选项(例如 Cloud TPU 和 Cloud GPU)。GKE 还可与用于深度学习(例如 JAX 或 TensorFlow)、机器学习编排(例如 Jupyter 或 Ray)和 LLM 推理(例如 vLLM 或 NVIDIA Dynamo)的开源软件和框架搭配使用。
图 1:GKE 是一个可伸缩的托管平台,适用于 AI/机器学习工作负载。

下表总结了支持 AI/ML 工作负载或运营目标的 GKE 功能。

AI/机器学习工作负载或操作 GKE 如何为您提供支持 主要特性
推理和投放 经过优化,可弹性部署 AI 模型,具有低延迟、高吞吐量和高成本效益。
  • 灵活的加速器:GKE 支持使用 GPUTPU 进行推理。
  • GKE 推理网关:一种可感知模型的网关,专门为 AI 推理工作负载提供智能路由和负载均衡。
  • GKE 推理快速入门:一种工具,通过为热门 AI 模型提供一组基准配置文件,简化性能分析和部署。
  • GKE Autopilot:一种 GKE 运维模式,可自动执行集群运维和容量调整,从而减少开销。
训练和微调 提供高效训练超大型模型所需的规模和编排功能,同时最大限度地降低成本。
统一的 AI/机器学习开发 为 Ray 提供代管式支持,Ray 是一种用于伸缩分布式 Python 应用的开源框架。
  • GKE 上的 Ray 加载项:抽象化 Kubernetes 基础架构,让您只需进行极少的代码更改,即可扩缩大规模数据预处理、分布式训练和在线服务等工作负载。

后续步骤