Google Cloud 致力于提供卓越的人工智能 (AI) 基础架构来为广泛领域中要求严苛的 GPU 加速工作负载提供支持。您可以使用 Google Cloud 上的 GPU 来运行 AI、机器学习 (ML)、科学、分析、工程、消费者和企业应用。
通过与 NVIDIA 合作,Google Cloud 可提供最新的 GPU,同时可通过众多存储和网络选项优化软件堆栈。如需查看可用的 GPU 的完整列表,请参阅 GPU 平台。
以下部分简要介绍了 Google Cloud 上的 GPU 的优势。
GPU 加速虚拟机
在 Google Cloud 上,您能够以最适合您需求的方式访问和预配 GPU。我们提供专门的加速器优化型机器家族,其中的机器类型预先挂接了 GPU 并可提供卓越的网络功能,能够最大限度地提高机器性能。支持 A3、A2 和 G2 机器系列。
多种预配选项
您可以将加速器优化型机器家族与以下任一开源产品或 Google Cloud 产品搭配使用来预配集群。
Vertex AI
Vertex AI 是一个全托管式机器学习 (ML) 平台,可用于训练和部署机器学习模型及 AI 应用。在 Vertex AI 应用中,您可以通过以下方式使用 GPU 加速虚拟机来提升性能:
- 在自定义训练 GKE 工作器池中使用支持 GPU 的虚拟机。
- 使用 Vertex AI Model Garden 中的开源 LLM 模型。
- 缩短预测延迟时间。
- 提升 Vertex AI Workbench 笔记本代码的性能。
- 提升 Colab Enterprise 运行时的性能。
GKE 和 Slurm
大规模编排平台(例如 GKE)非常适合用于预配可用来训练和微调大型机器学习模型的大规模集群。大型机器学习模型是指使用大量数据的模型。
Google Cloud 上提供以下编排平台。
Google Kubernetes Engine (GKE):是一种可用于使用 Google 的基础架构来大规模部署和操作容器化应用的服务。
Slurm:是一种开源集群管理和作业调度工具。在 Google Cloud 上,您可以使用 Cluster Toolkit 来部署 Slurm 集群。
训练和微调大型模型
如要训练或微调大型模型,我们建议使用 a3-megagpu-8g
机器集群,并使用 GKE 或 Slurm 等调度器进行部署。
部署选项 |
部署指南 |
Slurm |
|
GKE |
训练和微调主流模型
如要训练和微调主流模型,我们建议使用标准 a3-highgpu-8g
或任何 A2 或 G2 机器类型,并使用 GKE 或 Slurm 等调度器进行部署。
部署选项 |
部署指南 |
工作负载 |
GKE |
推理:在 GKE 上部署模型 训练:在 GKE 上训练模型 |
|
Slurm |
Compute Engine
您还可以在 Compute Engine 上创建和管理挂接了 GPU 的单个虚拟机或较小的虚拟机集群。这种方法非常适合运行图形密集型工作负载。
部署选项 |
部署指南 |
创建托管式实例组 (MIG) |
|
批量创建虚拟机 |
|
创建单个虚拟机 |
|
创建虚拟工作站 |
Cloud Run
您可以为 Cloud Run 服务配置 GPU。GPU 非常适合在 Cloud Run 上使用大型语言模型运行 AI 推理工作负载。
在 Cloud Run 上,请参阅以下资源,了解如何在 GPU 上运行 AI 工作负载: