GKE 上的 AI/机器学习编排文档
使用 Google Kubernetes Engine (GKE) 平台编排功能运行经过优化的 AI/机器学习工作负载。借助 Google Kubernetes Engine (GKE),您可以实现一个可直接用于生产环境的强大 AI/机器学习平台,并具备托管式 Kubernetes 的所有优势和以下功能:
- 支持使用 GPU 和 TPU 大规模训练和服务工作负载的基础设施编排。
- 与分布式计算和数据处理框架灵活集成。
- 在同一基础设施上支持多个团队,以最大限度地提高资源利用率。
获享 $300 免费赠金开始概念验证
- 体验 Gemini 2.0 Flash Thinking
- 免费使用热门产品(包括 AI API 和 BigQuery)的每月用量
- 不会自动收费,无需承诺
继续探索 20 多种提供“始终免费”用量的产品
使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。
文档资源
使用 GKE 生成式 AI 功能提供开放模型
- 新功能!
- 新功能!
- 新功能!
- 教程
- 教程
- 教程
相关资源
通过 Optimum TPU 使用 GKE 中的 TPU 应用开源模型
了解如何通过来自 Hugging Face 的 Optimum TPU 服务框架,使用 GKE 中的张量处理单元 (TPU) 部署 LLM。
在 GKE 中创建和使用由 Parallelstore 实例提供支持的卷
了解如何创建由全托管式 Parallelstore 实例提供支持的存储,并将其作为卷进行访问。CSI 驱动程序针对涉及较小文件大小和随机读取的 AI/机器学习训练工作负载进行了优化。
利用 Hyperdisk ML 加快 AI/机器学习数据加载速度
了解如何使用 Hyperdisk ML 简化和加速在 GKE 上加载 AI/机器学习模型权重的操作。
通过 JetStream 和 PyTorch 使用 GKE 上的 TPU 应用 LLM
了解如何通过 JetStream 和 PyTorch 使用 GKE 中的张量处理单元 (TPU) 提供 LLM。
使用 GKE 中的 GPU 优化 LLM 推理的最佳实践
了解如何使用 vLLM 和文本生成推理 (TGI) 服务框架,通过 GKE 中的 GPU 优化 LLM 推理性能的最佳实践。
在 GKE 上使用 NVIDIA GPU Operator 管理 GPU 堆栈
了解何时使用 NVIDIA GPU Operator 以及如何在 GKE 上启用 NVIDIA GPU Operator。
为 TPU 上的 LLM 工作负载配置自动扩缩
了解如何使用 GKE Pod 横向自动扩缩器 (HPA) 来设置自动扩缩基础设施,以使用单主机 JetStream 部署 Gemma LLM。
使用 GKE 上的多个 GPU 微调 Gemma 开放模型
了解如何通过 Hugging Face Transformers 库,使用 GKE 中的 GPU 微调 Gemma LLM。
使用 TPU 在 GKE 上通过 Stable Diffusion 模型部署 Ray Serve 应用
了解如何使用 TPU、Ray Serve 和 Ray Operator 插件在 GKE 上部署和提供 Stable Diffusion 模型。
使用 GKE 为 GPU 上的 LLM 工作负载配置自动扩缩
了解如何使用 GKE Pod 横向自动扩缩器 (HPA) 设置自动扩缩基础设施,以通过 Hugging Face 文本生成接口 (TGI) 服务框架部署 Gemma LLM。
在 A3 Mega 虚拟机上使用 Megatron-LM 训练 Llama2
了解如何在 A3 Mega 上运行基于容器的 Megatron-LM PyTorch 工作负载。
在 Autopilot 中部署 GPU 工作负载
了解如何在 GKE Autopilot 工作负载中请求硬件加速器 (GPU)。
通过 GKE 中的多个 GPU 提供 LLM
了解如何将 GKE 与多个 NVIDIA L4 GPU 搭配使用,以提供 Llama 2 70B 或 Falcon 40B。
GKE 上的 Ray 使用入门
了解如何在 Ray 集群上运行工作负载,以便在 GKE 上轻松开始使用 Ray。
使用 Ray 在 L4 GPU 上部署 LLM
了解如何在 GKE 中使用 Ray 框架提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b。
使用 JobSet 和 Kueue 编排 TPU 多切片工作负载
了解如何使用 JobSet 和 Kueue 在 GKE 上的多个 TPU 切片上编排 Jax 工作负载。
使用 NVIDIA 数据中心 GPU 管理器 (DCGM) 监控 GKE 上的 GPU 工作负载
了解如何使用 NVIDIA 数据中心 GPU 管理器 (DCGM) 观察 GKE 上的 GPU 工作负载。
快速入门:在 GKE Standard 集群上使用 GPU 训练模型
本快速入门介绍如何使用 GKE 中的 GPU 部署训练模型,并将预测结果存储在 Cloud Storage 中。
在 GKE 上运行大规模机器学习
此视频介绍了 GKE 如何帮助解决大规模训练 AI 模型的常见挑战,以及在 GKE 上训练和提供大规模机器学习模型的最佳做法。
具有 GPU 加速功能的 TensorFlow on GKE Autopilot
本博文是有关创建、执行和清理支持 Tensorflow 的 Jupiter 笔记本的分步指南。
在 GKE 上使用命名空间配额共享实现 Job 排队系统
本教程使用 Kueue 介绍如何实现 Job 排队系统,以及如何配置 GKE 上不同命名空间之间的工作负载资源和配额共享。
使用 GKE 和 Cloud Storage 构建 RAG 聊天机器人
本教程介绍如何将基于检索增强生成的大语言模型应用与上传到 Cloud Storage 存储桶的 PDF 文件集成。
使用 BigQuery、Cloud Run 和 Gemma 在 GKE 上分析数据
本教程介绍了如何利用 BigQuery 进行数据存储和处理、利用 Cloud Run 进行请求处理,以及利用 Gemma LLM 进行数据分析和预测,从而在 GKE 上分析大型数据集。
使用 GKE 和 Ray 进行分布式数据预处理:适用于企业的扩缩
了解如何利用 GKE 和 Ray 高效地预处理大型数据集以进行机器学习。
在 GKE 上进行 AI/机器学习推理的数据加载最佳实践
了解如何在 Google Kubernetes Engine 上缩短机器学习应用的数据加载时间。
节省 GPU 费用:为 GKE 推理工作负载提供更智能的自动扩缩
了解如何微调 GKE 的 Pod 横向自动扩缩器以实现最高效率,从而优化 GPU 推理费用。
在 GKE 上使用 NVIDIA NIM 微服务高效地提供经过优化的 AI 模型
了解如何在 GKE 上轻松部署先进的 NVIDIA NIM 微服务,并加速您的 AI 工作负载。
使用 GKE 上的新 Ray Operator 加速生产环境中的 Ray
了解 GKE 上的 Ray Operator 如何简化 AI/机器学习生产部署,提升性能和可伸缩性。
针对 GKE 中的 GPU 最大限度地提高 LLM 服务吞吐量 - 实用指南
了解如何针对 GKE 中的 GPU 最大限度地提高大语言模型 (LLM) 服务吞吐量,包括基础架构决策和模型服务器优化。
轻松实现搜索引擎:采用 GKE 和 Vertex AI Agent Builder 的低代码方法
如何使用 Google Cloud、Vertex AI Agent Builder、Vertex AI Search 和 GKE 构建搜索引擎。
LiveX AI 利用在 GKE 和 NVIDIA AI 上训练和提供服务的 AI 代理,降低客户服务成本
LiveX AI 如何使用 GKE 构建 AI 代理,以提高客户满意度并降低费用。
使用 GKE 和 Cloud SQL 且支持 RAG 的生成式 AI 应用的基础设施
使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain 运行具有检索增强生成 (RAG) 功能的生成式 AI 应用的参考架构。
在专利搜索领域进行创新:IPRally 如何借助 GKE 和 Ray 利用 AI
IPRally 如何使用 GKE 和 Ray 构建一个可伸缩的高效机器学习平台,以便更快且更准确地进行专利搜索。
Google Cloud 上的 Gemma 性能深入剖析
在 Cloud GPU 和 Cloud TPU 上利用 Gemma,在 GKE 上提高推理和训练效率。
GKE 上的 Gemma 深入探究:提供开放型生成式 AI 模型的新创新技术
使用出色的 Gemma 开放模型构建可移植且可自定义的 AI 应用,并将其部署到 GKE 上。
使用 Ray 和 Kueue 为 AI/机器学习实现高级调度
使用 KubeRay 和 Kueue 在 GKE 中编排 Ray 应用。
如何保护 Ray on Google Kubernetes Engine
应用安全数据分析和安全加固技术以使用 Ray on GKE 训练 AI/机器学习工作负载。
为 Google Cloud 中的 AI 和机器学习工作负载设计存储
为 Google Cloud 上的 AI 和机器学习工作负载选择最佳的存储方案组合。
自动安装驱动程序可简化在 GKE 中使用 NVIDIA GPU 的过程
在 GKE 中自动安装 Nvidia GPU 驱动程序。
借助 GKEE 上的 NVIDIA NeMo 框架加速您的生成式 AI 之旅
使用 GKE 和 NVIDIA NeMo 框架训练生成式 AI 模型。
为何将 GKE 用于 Ray AI 工作负载?
使用 GKE for Ray 工作负载提高可伸缩性、成本效益、容错能力、隔离性和可移植性。
在全托管式 GKE 上运行 AI,现在提供了新的计算选项、价格和资源预留
借助 GKE Autopilot,为 AI/机器学习工作负载提供了更好的 GPU 支持和更高的性能,并降低了价格。
SEEN 如何使用 GKE 将输出扩容 89 倍并将 GPU 费用降低 66%
初创公司使用 GKE 扩大个性化视频输出规模。
Spotify 如何借助 Ray 和 GKE 推动机器学习创新
Ray 如何转变 Spotify 的机器学习开发工作。
Ordaōs Bio 如何利用 GKE 上的生成式 AI
Ordaōs Bio 是领先的生物医学研究和发现 AI 加速器之一,正在寻找肿瘤和慢性炎症疾病新型免疫疗法的解决方案。
GKE 来自一家由 ML 驱动的成长型初创公司
硅谷初创公司 Moloco 如何利用 GKE 和 TensorFlow 企业版的强大功能来增强其机器学习 (ML) 基础架构。
Google Kubernetes Engine (GKE) 示例
查看官方 GKE 产品教程中使用的示例应用。
GKE AI 实验室示例
查看利用 GKE 加速 AI/机器学习计划的实验性示例。