GKE 上的 AI/机器学习编排文档

使用 Google Kubernetes Engine (GKE) 平台编排功能运行经过优化的 AI/机器学习工作负载。借助 Google Kubernetes Engine (GKE),您可以实现一个可直接用于生产环境的强大 AI/机器学习平台,并具备托管式 Kubernetes 的所有优势和以下功能:

  • 支持使用 GPU 和 TPU 大规模训练和服务工作负载的基础设施编排。
  • 与分布式计算和数据处理框架灵活集成。
  • 在同一基础设施上支持多个团队,以最大限度地提高资源利用率。
本页面简要介绍了 GKE 的 AI/机器学习功能,以及如何使用 GPU、TPU 以及 Hugging Face TGI、vLLM 和 JetStream 等框架在 GKE 上运行经过优化的 AI/机器学习工作负载。
  • 体验 Gemini 2.0 Flash Thinking
  • 免费使用热门产品(包括 AI API 和 BigQuery)的每月用量
  • 不会自动收费,无需承诺

继续探索 20 多种提供“始终免费”用量的产品

使用适用于常见应用场景(包括 AI API、虚拟机、数据仓库等)的 20 多种免费产品。

文档资源

查找快速入门和指南,查看重要参考文档,并获取有关常见问题的帮助。
探索 Google Cloud Skills Boost 中的自主培训、应用场景、参考架构和代码示例,并了解有关如何使用和连接 Google Cloud 服务的示例。
培训
培训和教程

了解如何通过来自 Hugging Face 的 Optimum TPU 服务框架,使用 GKE 中的张量处理单元 (TPU) 部署 LLM。

教程 AI/机器学习推理 TPU

培训
培训和教程

了解如何创建由全托管式 Parallelstore 实例提供支持的存储,并将其作为卷进行访问。CSI 驱动程序针对涉及较小文件大小和随机读取的 AI/机器学习训练工作负载进行了优化。

教程 AI/机器学习数据加载

培训
培训和教程

了解如何使用 Hyperdisk ML 简化和加速在 GKE 上加载 AI/机器学习模型权重的操作。

教程 AI/机器学习数据加载

培训
培训和教程

了解如何通过 JetStream 和 PyTorch 使用 GKE 中的张量处理单元 (TPU) 提供 LLM。

教程 AI/机器学习推理 TPU

培训
培训和教程

了解如何使用 vLLM 和文本生成推理 (TGI) 服务框架,通过 GKE 中的 GPU 优化 LLM 推理性能的最佳实践。

教程 AI/机器学习推理 GPU

培训
培训和教程

了解何时使用 NVIDIA GPU Operator 以及如何在 GKE 上启用 NVIDIA GPU Operator。

教程 GPU

培训
培训和教程

了解如何使用 GKE Pod 横向自动扩缩器 (HPA) 来设置自动扩缩基础设施,以使用单主机 JetStream 部署 Gemma LLM。

教程 TPU

培训
培训和教程

了解如何通过 Hugging Face Transformers 库,使用 GKE 中的 GPU 微调 Gemma LLM。

教程 AI/机器学习推理 GPU

培训
培训和教程

了解如何使用 TPU、Ray Serve 和 Ray Operator 插件在 GKE 上部署和提供 Stable Diffusion 模型。

教程 AI/机器学习推理 Ray TPU

培训
培训和教程

了解如何使用 GKE Pod 横向自动扩缩器 (HPA) 设置自动扩缩基础设施,以通过 Hugging Face 文本生成接口 (TGI) 服务框架部署 Gemma LLM。

教程 GPU

培训
培训和教程

了解如何在 A3 Mega 上运行基于容器的 Megatron-LM PyTorch 工作负载。

教程 AI/机器学习训练 GPU

培训
培训和教程

了解如何在 GKE Autopilot 工作负载中请求硬件加速器 (GPU)。

教程 GPU

培训
培训和教程

了解如何将 GKE 与多个 NVIDIA L4 GPU 搭配使用,以提供 Llama 2 70B 或 Falcon 40B。

教程 AI/机器学习推理 GPU

培训
培训和教程

了解如何在 Ray 集群上运行工作负载,以便在 GKE 上轻松开始使用 Ray。

教程 Ray

培训
培训和教程

了解如何在 GKE 中使用 Ray 框架提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b。

教程 AI/机器学习推理 Ray GPU

培训
培训和教程

了解如何使用 JobSet 和 Kueue 在 GKE 上的多个 TPU 切片上编排 Jax 工作负载。

教程 TPU

培训
培训和教程

了解如何使用 NVIDIA 数据中心 GPU 管理器 (DCGM) 观察 GKE 上的 GPU 工作负载。

教程 AI/机器学习可观测性 GPU

培训
培训和教程

本快速入门介绍如何使用 GKE 中的 GPU 部署训练模型,并将预测结果存储在 Cloud Storage 中。

教程 AI/机器学习训练 GPU

培训
培训和教程

此视频介绍了 GKE 如何帮助解决大规模训练 AI 模型的常见挑战,以及在 GKE 上训练和提供大规模机器学习模型的最佳做法。

视频 AI/机器学习训练 AI/机器学习推理

培训
培训和教程

本博文是有关创建、执行和清理支持 Tensorflow 的 Jupiter 笔记本的分步指南。

博客 AI/机器学习训练 AI 机器学习推理 GPU

培训
培训和教程

本教程使用 Kueue 介绍如何实现 Job 排队系统,以及如何配置 GKE 上不同命名空间之间的工作负载资源和配额共享。

教程 AI/机器学习批量

培训
培训和教程

本教程介绍如何将基于检索增强生成的大语言模型应用与上传到 Cloud Storage 存储桶的 PDF 文件集成。

教程 AI/机器学习数据加载

培训
培训和教程

本教程介绍了如何利用 BigQuery 进行数据存储和处理、利用 Cloud Run 进行请求处理,以及利用 Gemma LLM 进行数据分析和预测,从而在 GKE 上分析大型数据集。

教程 AI/机器学习数据加载

使用场景
使用场景

了解如何利用 GKE 和 Ray 高效地预处理大型数据集以进行机器学习。

MLOps 训练 Ray

使用场景
使用场景

了解如何在 Google Kubernetes Engine 上缩短机器学习应用的数据加载时间。

推理 Hyperdisk ML Cloud Storage FUSE

使用场景
使用场景

了解如何微调 GKE 的 Pod 横向自动扩缩器以实现最高效率,从而优化 GPU 推理费用。

推理 GPU HPA

使用场景
使用场景

了解如何在 GKE 上轻松部署先进的 NVIDIA NIM 微服务,并加速您的 AI 工作负载。

AI NVIDIA NIM

使用场景
使用场景

了解 GKE 上的 Ray Operator 如何简化 AI/机器学习生产部署,提升性能和可伸缩性。

AI TPU Ray

使用场景
使用场景

了解如何针对 GKE 中的 GPU 最大限度地提高大语言模型 (LLM) 服务吞吐量,包括基础架构决策和模型服务器优化。

LLM GPU NVIDIA

使用场景
使用场景

如何使用 Google Cloud、Vertex AI Agent Builder、Vertex AI Search 和 GKE 构建搜索引擎。

搜索 代理 Vertex AI

使用场景
使用场景

LiveX AI 如何使用 GKE 构建 AI 代理,以提高客户满意度并降低费用。

GenAI NVIDIA GPU

使用场景
使用场景

使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain 运行具有检索增强生成 (RAG) 功能的生成式 AI 应用的参考架构。

GenAI RAG Ray

使用场景
使用场景

IPRally 如何使用 GKE 和 Ray 构建一个可伸缩的高效机器学习平台,以便更快且更准确地进行专利搜索。

AI Ray GPU

使用场景
使用场景

在 Cloud GPU 和 Cloud TPU 上利用 Gemma,在 GKE 上提高推理和训练效率。

AI Gemma 性能

使用场景
使用场景

使用出色的 Gemma 开放模型构建可移植且可自定义的 AI 应用,并将其部署到 GKE 上。

AI Gemma 性能

使用场景
使用场景

使用 KubeRay 和 Kueue 在 GKE 中编排 Ray 应用。

Kueue Ray KubeRay

使用场景
使用场景

应用安全数据分析和安全加固技术以使用 Ray on GKE 训练 AI/机器学习工作负载。

AI Ray 安全性

使用场景
使用场景

为 Google Cloud 上的 AI 和机器学习工作负载选择最佳的存储方案组合。

AI 机器学习 存储

使用场景
使用场景

在 GKE 中自动安装 Nvidia GPU 驱动程序。

GPU NVIDIA 安装

使用场景
使用场景

使用 GKE 和 NVIDIA NeMo 框架训练生成式 AI 模型。

GenAI NVIDIA NeMo

使用场景
使用场景

使用 GKE for Ray 工作负载提高可伸缩性、成本效益、容错能力、隔离性和可移植性。

AI Ray 扩缩

使用场景
使用场景

借助 GKE Autopilot,为 AI/机器学习工作负载提供了更好的 GPU 支持和更高的性能,并降低了价格。

GPU Autopilot 性能

使用场景
使用场景

初创公司使用 GKE 扩大个性化视频输出规模。

GPU 扩缩 容器

使用场景
使用场景

Ray 如何转变 Spotify 的机器学习开发工作。

机器学习 Ray 容器

使用场景
使用场景

Ordaōs Bio 是领先的生物医学研究和发现 AI 加速器之一,正在寻找肿瘤和慢性炎症疾病新型免疫疗法的解决方案。

性能 TPU 费用优化

使用场景
使用场景

硅谷初创公司 Moloco 如何利用 GKE 和 TensorFlow 企业版的强大功能来增强其机器学习 (ML) 基础架构。

机器学习 扩缩 费用优化

代码示例
代码示例

查看官方 GKE 产品教程中使用的示例应用。

代码示例
代码示例

查看利用 GKE 加速 AI/机器学习计划的实验性示例。

相关视频