AI Hypercomputer 徽标

在 AI 超级计算机上训练、调优和部署

AI Hypercomputer 是 Google Cloud 上每个 AI 工作负载背后的集成式超级计算系统。它由硬件、软件和使用模式组成,旨在简化 AI 部署、提升系统级效率并优化成本。

概览

AI 优化型硬件

从优化计算、存储和网络选项中选择,针对精细的工作负载目标,无论是提高吞吐量、降低延迟、加速结果获取时间,还是降低 TCO。详细了解 Google Cloud TPUGoogle Cloud GPU,以及最新的存储网络技术。

领先的软件、开放的框架

借助业界领先的软件,充分发挥硬件性能。该软件集成了开放框架、库和编译器,有助于提高 AI 开发、集成与管理效率。

灵活的使用模式

灵活的使用选项可让客户根据业务需求选择具有承诺使用折扣的固定费用模式或动态按需模式。动态工作负载调度器Spot 虚拟机可帮助您在避免资源过度分配的同时获取所需容量。此外,Google Cloud 的费用优化工具有助于自动利用资源,减少工程师的手动任务。

工作方式

Google 开发出了 TensorFlow 等技术,是人工智能领域的领军者。你知道吗?你可以在自己的项目中利用 Google 的技术。了解 Google 在 AI 基础架构方面的创新轨迹,以及如何利用这些创新技术来处理您的工作负载。

Google Cloud AI Hypercomputer 架构图,旁边是 Google Cloud 产品经理 Chelsie 的照片

常见用途

运行大规模 AI 训练和预训练

强大、可伸缩且高效的 AI 训练

训练工作负载需在紧密耦合的集群中跨数千个节点以高度同步的作业形式运行。单个降级节点可能会中断整个作业,进而延迟产品上市时间。您需要执行的操作:

  • 确保快速设置集群,并针对相关工作负载进行优化调整
  • 预测故障并快速进行排查
  • 即使发生故障,也能继续运行工作负载

我们希望让客户非常轻松地在 Google Cloud 上部署和扩缩训练工作负载。

    强大、可伸缩且高效的 AI 训练

    训练工作负载需在紧密耦合的集群中跨数千个节点以高度同步的作业形式运行。单个降级节点可能会中断整个作业,进而延迟产品上市时间。您需要执行的操作:

    • 确保快速设置集群,并针对相关工作负载进行优化调整
    • 预测故障并快速进行排查
    • 即使发生故障,也能继续运行工作负载

    我们希望让客户非常轻松地在 Google Cloud 上部署和扩缩训练工作负载。

      强大、可伸缩且高效的 AI 训练

      如需创建 AI 集群,请先从我们的任一教程入手:

      Character AI 利用 Google Cloud 扩大规模

      “我们需要 GPU 来生成对用户消息的响应。随着我们平台上的用户越来越多,我们需要更多的 GPU 来为他们提供服务。因此,我们可以在 Google Cloud 上开展实验,寻找适合特定工作负载的平台。可以灵活选择最有价值的解决方案,真是太好了。”Myle Ott,Character.AI 创始工程师

      部署和编排 AI 应用

      借助领先的 AI 编排软件和开放框架,提供由 AI 赋能的体验

      Google Cloud 提供包含常见操作系统、框架、库和驱动的镜像。AI Hypercomputer 会优化这些预配置镜像,以更好地支持您的 AI 工作负载。

      • AI 和机器学习框架与库:使用 Deep Learning Software Layer (DLSL) Docker 映像在 Google Kubernetes Engine (GKE) 集群上运行 NeMO、MaxText 等机器学习模型。
      • 集群部署和 AI 编排:您可以将 AI 工作负载部署至 GKE 集群、Slurm 集群或 Compute Engine 实例。如需了解详情,请参阅虚拟机和集群创建概览

      借助领先的 AI 编排软件和开放框架,提供由 AI 赋能的体验

      Google Cloud 提供包含常见操作系统、框架、库和驱动的镜像。AI Hypercomputer 会优化这些预配置镜像,以更好地支持您的 AI 工作负载。

      • AI 和机器学习框架与库:使用 Deep Learning Software Layer (DLSL) Docker 映像在 Google Kubernetes Engine (GKE) 集群上运行 NeMO、MaxText 等机器学习模型。
      • 集群部署和 AI 编排:您可以将 AI 工作负载部署至 GKE 集群、Slurm 集群或 Compute Engine 实例。如需了解详情,请参阅虚拟机和集群创建概览

      探索软件资源

      Priceline:帮助旅客策划独特体验

      “与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官

      Priceline 徽标

      以经济高效的方式大规模部署模型

      最大化推理工作负载的性价比和可靠性

      推理正在迅速变得更加多样和复杂,主要体现在以下三个方面:

      • 首先,我们与 AI 的交互方式正在发生变化。现在的对话拥有更长、更丰富的上下文内容。
      • 其次,复杂推理和多步推理正推动混合专家模型 (MoE) 的普及。这正在重新定义从初始输入到最终输出的内存和计算资源的扩展方式。
      • 最后,很明显,真正的价值不仅在于每美元可获得的词元数量,更在于回答的实用性。模型是否具备相应的专业能力?它是否准确回答了关键业务问题?因此,我们认为客户需要更优的衡量标准,应重点关注系统运营的总成本,而非处理器的价格。

      最大化推理工作负载的性价比和可靠性

      推理正在迅速变得更加多样和复杂,主要体现在以下三个方面:

      • 首先,我们与 AI 的交互方式正在发生变化。现在的对话拥有更长、更丰富的上下文内容。
      • 其次,复杂推理和多步推理正推动混合专家模型 (MoE) 的普及。这正在重新定义从初始输入到最终输出的内存和计算资源的扩展方式。
      • 最后,很明显,真正的价值不仅在于每美元可获得的词元数量,更在于回答的实用性。模型是否具备相应的专业能力?它是否准确回答了关键业务问题?因此,我们认为客户需要更优的衡量标准,应重点关注系统运营的总成本,而非处理器的价格。

      探索 AI 推理资源

        Assembly AI 利用 Google Cloud 提高成本效益

        “我们的实验结果表明,对于我们的模型,在进行大规模推理时,Cloud TPU v5e 是最具成本效益的加速器。其性价比是 G2 的 2.7 倍,是 A2 实例的 4.2 倍。”Domenic Donato,

        AssemblyAI 技术副总裁


        AssemblyAI 徽标
        生成解决方案
        您想解决什么问题?
        What you'll get:
        分步指南
        参考架构
        可用的预构建解决方案
        此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

        Google Cloud 上的开源模型

        在单个 GPU 上通过 GKE 提供模型

        使用 GPU 训练通用模型

        将模型服务扩展到多个 GPU

        使用 GKE 中的多主机 TPU 和 Saxml 来提供 LLM

        使用 NVIDIA Nemo 框架进行大规模训练

        常见问题解答

        AI Hypercomputer 是在 Google Cloud 上启动 AI 工作负载的最简便方式吗?

        对于大多数客户而言,像 Vertex AI 这样的托管式 AI 平台是最简单的 AI 入门方式,因为其中内置了所有工具、模板和模型。此外,Vertex AI 由 AI Hypercomputer 提供支持,并以对您有利的方式进行了优化。Vertex AI 是最便捷的入门途径,因为它提供了最简化的体验。如果您希望自行配置和优化基础设施的每个组件,则可以将 AI Hypercomputer 的各个组件作为基础设施访问,并按您的需求进行组装。

        虽然各项服务提供特定功能,但 AI Hypercomputer 提供了一个集成系统,其中的硬件、软件与使用模式经过协同设计,可实现最佳运行效果。这种集成在性能、成本和上市时间方面带来了系统级的效率提升,而通过拼接不同的服务往往难以达到这一效果。它简化了复杂系统,并为 AI Infrastructure 提供全面的解决方案。



        没错,AI Hypercomputer 在设计时充分考虑了灵活性。Cross-Cloud Interconnect 等技术可为本地数据中心与其他云平台提供高带宽连接,从而加速混合云与多云 AI 策略的实施。我们采用开放标准,并集成主流第三方软件,使您能够构建跨多个环境的解决方案,并按需更换服务。

        安全性是 AI Hypercomputer 的核心组成部分。它受益于 Google Cloud 的多层安全模型。具体功能包括 Titan 安全微控制器(确保系统从可信状态启动)、RDMA 防火墙(在训练期间实现 TPU/GPU 之间的零信任网络连接),以及与 Model Armor 等 AI 安全解决方案的集成。这些功能还辅以诸如安全 AI 框架等稳健的基础设施安全政策与原则。

        • 如果您不想管理虚拟机,建议您从 Google Kubernetes Engine (GKE) 入手
        • 如果您需要使用多个调度器,或者无法使用 GKE,建议使用 Cluster Director
        • 如果您希望完全掌控基础设施,唯一的实现方式是直接使用虚拟机,而 Google Compute Engine 是您的最佳选择


        否。AI Hypercomputer 可用于任意规模的工作负载。即使是较小规模的工作负载,也能充分发挥集成系统的各项优势,例如高效性和部署简化。AI Hypercomputer 还可在客户业务扩展过程中提供支持,从小型概念验证和试验阶段到大规模生产部署,始终保持灵活应对。

        是的,我们正在 GitHub 中构建一个 recipe 库。您还可以使用 Cluster Toolkit 获取预构建的集群蓝图。

        AI 优化型硬件

        存储

        • 训练:Managed Lustre 非常适合对吞吐量和容量要求严苛的 AI 训练,支持 PB 级容量。GCS Fuse(可选搭配 Anywhere Cache)适用于容量较大、延迟要求较宽松的场景。两者均可与 GKE 和 Cluster Director 集成。
        • 推理:GCS Fuse 搭配 Anywhere Cache 提供了简便的解决方案。如需更高的性能,请考虑使用 Hyperdisk ML。如果在同一可用区中使用 Managed Lustre 进行训练,也可将其用于推理。

        网络

        • 训练:可利用 VPC 中的 RDMA 网络,以及 Cloud Interconnect 和 Cross-Cloud Interconnect 等高带宽技术,实现快速数据传输。
        • 推理:利用 GKE Inference Gateway 和增强型 Cloud Load Balancing 等方案,实现低延迟模型服务。Model Armor 可集成用于提升 AI 的安全性与防护能力。

        计算可使用 Google Cloud TPU (Trillium)、NVIDIA GPU (Blackwell) 和 CPU (Axion)。这样,您就可以根据具体工作负载的吞吐量、延迟或 TCO 需求进行优化。

        领先的软件和开放框架

        • 机器学习框架和库:PyTorch、JAX、TensorFlow、Keras、vLLM、JetStream、MaxText、LangChain、Hugging Face、NVIDIA(CUDA、NeMo、Triton)等多种开源和第三方选项。
        • 编译器、运行时和工具:XLA(用于提升性能和互操作性)、Pathways on Cloud、Multislice Training、Cluster Toolkit(用于预构建集群蓝图)等多种开源和第三方选项。
        • 编排Google Kubernetes Engine (GKE)、Cluster Director(适用于 Slurm、非托管式 Kubernetes 和自带调度器)以及 Google Compute Engine (GCE)。

        使用模式

        • 按需:随用随付。
        • 承诺使用折扣 (CUD):长期承诺可大幅节省费用(高达 70%)。
        • Spot 虚拟机:非常适用于容错型批处理作业,最多可享 91% 折扣。
        • 动态工作负载调度器 (DWS):针对批处理和容错作业,最多可节省 50% 成本。