使用 Google Kubernetes Engine (GKE) 平台编排功能运行经过优化的 AI/机器学习工作负载。借助 Google Kubernetes Engine (GKE),您可以实现一个可直接用于生产环境的强大 AI/机器学习平台,并具备托管式 Kubernetes 的所有优势和以下功能:

  • 支持使用 GPU 和 TPU 大规模训练和服务工作负载的基础设施编排。
  • 与分布式计算和数据处理框架灵活集成。
  • 在同一基础设施上支持多个团队,以最大限度地提高资源利用率。
本页面简要介绍了 GKE 的 AI/机器学习功能,以及如何开始使用 GPU、TPU 和 Hugging Face TGI、vLLM 和 JetStream 等框架在 GKE 上运行经过优化的 AI/机器学习工作负载。
探索 Google Cloud Skills Boost 中的自主培训、应用场景、参考架构和代码示例,并了解有关如何使用和连接 Google Cloud 服务的示例。

相关视频

Kubernetes is the top container orchestration platform for batch workloads like data processing, machine learning, and scientific simulations. In this video, Mofi Rahman, Cloud Advocate at Google, discusses why Google Kubernetes Engine (GKE) is the

Learn best practices on how to run batch and high-performance computing workloads on Google Kubernetes Engine (GKE) and how PGS used these to replace their 260,000-core Cray supercomputers. Hear about the latest feature launches in the data

In this episode of GKE Essentials, we continue our 2-part series on building large scale GKE clusters, this time exploring how to think about your usage of GKE and foundational Google Cloud resources you need when building a large GKE cluster. Watch