开始使用 GKE 生成式 AI 功能进行 AI 模型推理！

此页面由 Cloud Translation API 翻译。

GKE 上的 AI/机器学习编排文档

Google Kubernetes Engine (GKE) 提供了一个统一的平台来编排整个 AI/机器学习生命周期。它可为您提供强大的功能和灵活性，以加速训练、推理和智能体工作负载，从而简化基础设施并开始交付成果。GKE 先进的编排功能可提供：

硬件加速器：大规模访问和管理您训练和推理所需的高性能 GPU 和 TPU。
堆栈灵活性：与您已经熟悉并信任的分布式计算、数据处理和模型部署框架集成。
托管式 Kubernetes 的简易性：充分利用托管式平台的优势，自动执行整个 AI/机器学习生命周期的任务、实现扩缩并提升安全性，同时保持灵活性。

探索我们的博客、教程和最佳实践，了解 GKE 如何优化您的 AI/机器学习工作负载。如需详细了解优势和可用功能，请参阅 GKE 上的 AI/机器学习工作负载简介概览。

免费开始使用

获享 $300 免费赠金开始概念验证

体验 Gemini 2.0 Flash Thinking
免费使用热门产品（包括 AI API 和 BigQuery）的每月用量
不会自动收费，无需承诺

查看免费产品优惠

继续探索 20 多种提供“始终免费”用量的产品

使用适用于常见应用场景（包括 AI API、虚拟机、数据仓库等）的 20 多种免费产品。

文档资源

查找快速入门和指南，查看重要参考文档，并获取有关常见问题的帮助。

管理 AI 基础设施和加速器

大规模训练 AI 模型

快速入门
在 GKE Standard 模式下使用 GPU 训练模型
快速入门
在 GKE Autopilot 模式下使用 GPU 训练模型
快速入门
在 A3 Mega 虚拟机上使用 Megatron-LM 训练 Llama2
操作方法
在 GKE 上使用多层级检查点机制训练大规模机器学习模型
教程
针对混合 AI/机器学习训练和推理工作负载优化 GKE 资源利用率

部署 AI 模型以进行推理

最佳做法
GKE 上 AI/机器学习推理的参考架构
概念
GKE 上的模型推理简介
操作方法
使用 GKE Inference Quickstart recipe 运行最佳实践推理
教程
通过预配置的架构在 GKE 上部署开放 LLM
教程
在 GKE 上提供 Deepseek-R1 671B 或 Llama 3.1 405B 等 LLM
教程
使用 GKE 中的 GPU 和 vLLM 来提供 Gemma
教程
通过 vLLM，使用 GKE 中的 TPU Trillium 提供 LLM
教程
探索有关在 GKE 上进行模型推理的更多教程

开始使用 GKE 生成式 AI 功能进行 AI 模型推理！

GKE 上的 AI/机器学习编排文档

获享 $300 免费赠金开始概念验证

继续探索 20 多种提供“始终免费”用量的产品

管理 AI 基础设施和加速器

大规模训练 AI 模型

部署 AI 模型以进行推理

使用智能体开发套件 (ADK) 和自托管 LLM 在 GKE 上部署智能体 AI 应用

使用智能体开发套件 (ADK) 和 Vertex AI 在 GKE 上部署智能体 AI 应用

通过 Optimum TPU 使用 GKE 中的 TPU 应用开源模型

在 GKE 中创建和使用由 Parallelstore 实例提供支持的卷

通过经济高效且高可用性的 GPU 预配策略在 GKE 上部署 LLM

在 TPU 上使用 KubeRay 提供大语言模型

利用 Hyperdisk ML 加快 AI/机器学习数据加载速度

通过 JetStream 和 PyTorch 使用 GKE 上的 TPU 应用 LLM

使用 GKE 中的 GPU 优化 LLM 推理的最佳实践

在 GKE 上使用 NVIDIA GPU Operator 管理 GPU 堆栈

为 TPU 上的 LLM 工作负载配置自动扩缩

使用 GKE 上的多个 GPU 微调 Gemma 开放模型

使用 TPU 在 GKE 上通过 Stable Diffusion 模型部署 Ray Serve 应用

使用 GKE 为 GPU 上的 LLM 工作负载配置自动扩缩

在 A3 Mega 虚拟机上使用 Megatron-LM 训练 Llama2

在 Autopilot 中部署 GPU 工作负载

通过 GKE 中的多个 GPU 提供 LLM

GKE 上的 Ray 使用入门

使用 Ray 在 L4 GPU 上部署 LLM

使用 JobSet 和 Kueue 编排 TPU 多切片工作负载

使用 NVIDIA 数据中心 GPU 管理器 (DCGM) 监控 GKE 上的 GPU 工作负载

快速入门：在 GKE Standard 集群上使用 GPU 训练模型

在 GKE 上运行大规模机器学习

具有 GPU 加速功能的 TensorFlow on GKE Autopilot

在 GKE 上使用命名空间配额共享实现 Job 排队系统

使用 GKE 和 Cloud Storage 构建 RAG 聊天机器人

使用 BigQuery、Cloud Run 和 Gemma 在 GKE 上分析数据

使用 GKE 和 Ray 进行分布式数据预处理：适用于企业的扩缩

在 GKE 上进行 AI/机器学习推理的数据加载最佳实践

节省 GPU 费用：为 GKE 推理工作负载提供更智能的自动扩缩

在 GKE 上使用 NVIDIA NIM 微服务高效地提供经过优化的 AI 模型

使用 GKE 上的新 Ray Operator 加速生产环境中的 Ray

针对 GKE 中的 GPU 最大限度地提高 LLM 服务吞吐量 - 实用指南

在 GKE 上运行批处理工作负载的最佳实践

在 GKE 上通过本地 SSD 支持实现高性能 AI/机器学习存储

借助 NVIDIA GPU 在 Kubernetes 上使用 JAX 进行机器学习

轻松实现搜索引擎：采用 GKE 和 Vertex AI Agent Builder 的低代码方法

LiveX AI 利用在 GKE 和 NVIDIA AI 上训练和提供服务的 AI 代理，降低客户服务成本

使用 GKE 和 Cloud SQL 且支持 RAG 的生成式 AI 应用的基础设施

GKE 上的批处理平台的参考架构

在专利搜索领域进行创新：IPRally 如何借助 GKE 和 Ray 利用 AI

Google Cloud 上的 Gemma 性能深入剖析

GKE 上的 Gemma 深入探究：提供开放型生成式 AI 模型的新创新技术

使用 Ray 和 Kueue 为 AI/机器学习实现高级调度

如何保护 Ray on Google Kubernetes Engine

为 Google Cloud 中的 AI 和机器学习工作负载设计存储

自动安装驱动程序可简化在 GKE 中使用 NVIDIA GPU 的过程

借助 GKEE 上的 NVIDIA NeMo 框架加速您的生成式 AI 之旅

为何将 GKE 用于 Ray AI 工作负载？

借助 Google Kubernetes Engine 使用权重和偏差简化 MLOps

在全托管式 GKE 上运行 AI，现在提供了新的计算选项、价格和资源预留

SEEN 如何使用 GKE 将输出扩容 89 倍并将 GPU 费用降低 66%

Spotify 如何借助 Ray 和 GKE 推动机器学习创新

Ordaōs Bio 如何利用 GKE 上的生成式 AI

GKE 来自一家由 ML 驱动的成长型初创公司

将 GKE 上 Stable Diffusion 的启动时间缩短为原先的四分之一

Google Kubernetes Engine (GKE) 示例

GKE AI 实验室示例

GKE 加速平台

相关视频