此页面由 Cloud Translation API 翻译。

GKE 上的 AI/机器学习工作负载简介

Autopilot Standard

本页面从概念上简要介绍了 Google Kubernetes Engine (GKE) 如何处理 AI/ML 工作负载。GKE 是由 Google 管理的 Kubernetes 开源容器编排平台。

Google Kubernetes Engine 提供了一个可伸缩、灵活且经济实惠的平台，用于运行所有容器化工作负载，包括人工智能和机器学习 (AI/ML) 应用。无论您是训练大型基础模型、大规模处理推理请求，还是构建全面的 AI 平台，GKE 都能提供所需的控制力和性能。

本页面适用于正在寻找可伸缩、自动化的托管式 Kubernetes 解决方案来运行 AI/ML 工作负载的数据和 AI 专家、云架构师、运维人员和开发者。如需详细了解常见角色，请参阅常见的 GKE 用户角色和任务。

开始在 GKE 上使用 AI/机器学习工作负载

您可以使用 GKE 的免费层级，这使您无需支付集群管理费用即可开始使用 Kubernetes，只需几分钟即可开始探索 GKE。

开始在 Google Cloud 控制台中使用
不妨试用以下快速入门：
- 在 GKE 上进行推理：在 GKE 上部署 AI 大语言模型 (LLM)，以使用预定义的架构进行推理。
- 在 GKE 上训练：在 GKE 上部署 AI 训练模型，并将预测结果存储在 Cloud Storage 中。
阅读关于 AI/机器学习工作负载的加速器消耗选项，其中提供了规划和获取平台加速器（GPU 和 TPU）的指导和资源。

常见使用场景

GKE 提供了一个统一的平台，可支持您的所有 AI 工作负载。

构建 AI 平台：对于企业平台团队，GKE 提供了灵活性，可用于构建满足各种需求的标准化多租户平台。
低延迟在线服务：对于构建生成式 AI 应用的开发者，GKE 与推理网关相结合可提供所需的优化路由和自动扩缩功能，从而在控制成本的同时提供出色的用户体验。

为 AI/机器学习工作负载选择合适的平台

Google Cloud 提供各种 AI 基础架构产品，从全代管式到完全可配置，可支持您的机器学习之旅。选择合适的平台取决于您对控制、灵活性和管理级别的具体需求。

最佳实践：

如果您需要深度控制、可移植性以及构建自定义高性能 AI 平台的能力，请选择 GKE。

基础设施控制和灵活性：您需要高度控制基础设施，需要使用自定义流水线，或需要内核级自定义。
大规模训练和推理：您希望利用 GKE 的伸缩功能和高性能来训练极大型模型或以极低延迟提供模型服务。
大规模实现成本效益：您希望优先考虑成本优化，通过将 GKE 与 Spot 虚拟机和灵活启动虚拟机集成，有效管理成本。
可移植性和开放标准：您希望避免供应商锁定，并希望借助 Kubernetes 在任何地方运行工作负载，并且您已经具备 Kubernetes 方面的专业知识或制定了多云策略。

您还可以考虑以下替代方案：

Google Cloud 服务	适用场景
Vertex AI	一个全代管式端到端平台，可加快开发速度并分担基础架构管理负担。非常适合专注于 MLOps 和快速实现价值的团队。如需了解详情，请观看选择自托管 GKE 和托管 Vertex AI 来托管 AI 模型。
Cloud Run	一个无服务器平台，用于运行可缩减至零的容器化推理工作负载。非常适合事件驱动型应用，并能以经济高效的方式部署较小的模型。如需深入比较，请参阅 GKE 和 Cloud Run。

GKE 如何为 AI/机器学习工作负载提供支持

GKE 提供了一套专用组件，可简化并加速 AI/机器学习生命周期的各个阶段，从大规模训练到低延迟推理。

在下图中，GKE 位于 Google Cloud中，可以使用不同的云存储选项（例如 Cloud Storage FUSE 和 Managed Lustre）和不同的云基础架构选项（例如 Cloud TPU 和 Cloud GPU）。GKE 还可与用于深度学习（例如 JAX 或 TensorFlow）、机器学习编排（例如 Jupyter 或 Ray）和 LLM 推理（例如 vLLM 或 NVIDIA Dynamo）的开源软件和框架搭配使用。 — **图 1**：GKE 是一个可伸缩的托管平台，适用于 AI/机器学习工作负载。

下表总结了支持 AI/ML 工作负载或运营目标的 GKE 功能。

AI/机器学习工作负载或操作	GKE 如何为您提供支持	主要特性
推理和投放	经过优化，可弹性部署 AI 模型，具有低延迟、高吞吐量和高成本效益。	灵活的加速器：GKE 支持使用 GPU 和 TPU 进行推理。 GKE 推理网关：一种可感知模型的网关，专门为 AI 推理工作负载提供智能路由和负载均衡。 GKE 推理快速入门：一种工具，通过为热门 AI 模型提供一组基准配置文件，简化性能分析和部署。 GKE Autopilot：一种 GKE 运维模式，可自动执行集群运维和容量调整，从而减少开销。
训练和微调	提供高效训练超大型模型所需的规模和编排功能，同时最大限度地降低成本。	更快的节点启动速度：专门针对 GPU 工作负载进行优化，可将节点启动时间缩短多达 80%。由动态工作负载调度器提供支持的灵活启动预配模式：可提高您为短时训练工作负载获取稀缺 GPU 和 TPU 加速器的能力。 Kueue：一个 Kubernetes 原生作业排队系统，用于管理批处理工作负载的资源分配、调度、配额管理和优先级。 TPU 多切片：一种硬件和网络架构，可让多个 TPU 切片通过数据中心网络 (DCN) 相互通信，从而实现大规模训练。
统一的 AI/机器学习开发	为 Ray 提供代管式支持，Ray 是一种用于伸缩分布式 Python 应用的开源框架。	GKE 上的 Ray 加载项：抽象化 Kubernetes 基础架构，让您只需进行极少的代码更改，即可扩缩大规模数据预处理、分布式训练和在线服务等工作负载。

后续步骤

如需探索我们针对在 GKE 上运行 AI/机器学习工作负载而提供的丰富官方指南、教程和其他资源，请访问 GKE 上的 AI/机器学习编排门户。
了解在 GKE 上为 AI/机器学习工作负载获取计算加速器（例如 GPU 或 TPU）的技术。
了解 GKE 上的 AI/机器学习模型推理。
了解 Ray on GKE。
在 GKE AI 实验室中探索利用 GKE 加速 AI/机器学习计划的实验性示例。

GKE 上的 AI/机器学习工作负载简介 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。