AI Hypercomputer 是 Google Cloud 上每个 AI 工作负载背后的集成式超级计算系统。它由硬件、软件和使用模式组成,旨在简化 AI 部署、提升系统级效率并优化成本。
概览
从优化计算、存储和网络选项中选择,针对精细的工作负载目标,无论是提高吞吐量、降低延迟、加速结果获取时间,还是降低 TCO。详细了解 Google Cloud TPU、Google Cloud GPU,以及最新的存储与网络技术。
借助业界领先的软件,充分发挥硬件性能。该软件集成了开放框架、库和编译器,有助于提高 AI 开发、集成与管理效率。
常见用途
训练工作负载需在紧密耦合的集群中跨数千个节点以高度同步的作业形式运行。单个降级节点可能会中断整个作业,进而延迟产品上市时间。您需要执行的操作:
我们希望让客户非常轻松地在 Google Cloud 上部署和扩缩训练工作负载。
如需创建 AI 集群,请先从我们的任一教程入手:
“我们需要 GPU 来生成对用户消息的响应。随着我们平台上的用户越来越多,我们需要更多的 GPU 来为他们提供服务。因此,我们可以在 Google Cloud 上开展实验,寻找适合特定工作负载的平台。可以灵活选择最有价值的解决方案,真是太好了。”Myle Ott,Character.AI 创始工程师
如需创建 AI 集群,请先从我们的任一教程入手:
“我们需要 GPU 来生成对用户消息的响应。随着我们平台上的用户越来越多,我们需要更多的 GPU 来为他们提供服务。因此,我们可以在 Google Cloud 上开展实验,寻找适合特定工作负载的平台。可以灵活选择最有价值的解决方案,真是太好了。”Myle Ott,Character.AI 创始工程师
Google Cloud 提供包含常见操作系统、框架、库和驱动的镜像。AI Hypercomputer 会优化这些预配置镜像,以更好地支持您的 AI 工作负载。
“与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官
Google Cloud 提供包含常见操作系统、框架、库和驱动的镜像。AI Hypercomputer 会优化这些预配置镜像,以更好地支持您的 AI 工作负载。
“与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官
推理正在迅速变得更加多样和复杂,主要体现在以下三个方面:
“我们的实验结果表明,对于我们的模型,在进行大规模推理时,Cloud TPU v5e 是最具成本效益的加速器。其性价比是 G2 的 2.7 倍,是 A2 实例的 4.2 倍。”Domenic Donato,
AssemblyAI 技术副总裁
推理正在迅速变得更加多样和复杂,主要体现在以下三个方面:
“我们的实验结果表明,对于我们的模型,在进行大规模推理时,Cloud TPU v5e 是最具成本效益的加速器。其性价比是 G2 的 2.7 倍,是 A2 实例的 4.2 倍。”Domenic Donato,
AssemblyAI 技术副总裁
常见问题解答
对于大多数客户而言,像 Vertex AI 这样的托管式 AI 平台是最简单的 AI 入门方式,因为其中内置了所有工具、模板和模型。此外,Vertex AI 由 AI Hypercomputer 提供支持,并以对您有利的方式进行了优化。Vertex AI 是最便捷的入门途径,因为它提供了最简化的体验。如果您希望自行配置和优化基础设施的每个组件,则可以将 AI Hypercomputer 的各个组件作为基础设施访问,并按您的需求进行组装。
虽然各项服务提供特定功能,但 AI Hypercomputer 提供了一个集成系统,其中的硬件、软件与使用模式经过协同设计,可实现最佳运行效果。这种集成在性能、成本和上市时间方面带来了系统级的效率提升,而通过拼接不同的服务往往难以达到这一效果。它简化了复杂系统,并为 AI Infrastructure 提供全面的解决方案。
没错,AI Hypercomputer 在设计时充分考虑了灵活性。Cross-Cloud Interconnect 等技术可为本地数据中心与其他云平台提供高带宽连接,从而加速混合云与多云 AI 策略的实施。我们采用开放标准,并集成主流第三方软件,使您能够构建跨多个环境的解决方案,并按需更换服务。
安全性是 AI Hypercomputer 的核心组成部分。它受益于 Google Cloud 的多层安全模型。具体功能包括 Titan 安全微控制器(确保系统从可信状态启动)、RDMA 防火墙(在训练期间实现 TPU/GPU 之间的零信任网络连接),以及与 Model Armor 等 AI 安全解决方案的集成。这些功能还辅以诸如安全 AI 框架等稳健的基础设施安全政策与原则。
否。AI Hypercomputer 可用于任意规模的工作负载。即使是较小规模的工作负载,也能充分发挥集成系统的各项优势,例如高效性和部署简化。AI Hypercomputer 还可在客户业务扩展过程中提供支持,从小型概念验证和试验阶段到大规模生产部署,始终保持灵活应对。
是的,我们正在 GitHub 中构建一个 recipe 库。您还可以使用 Cluster Toolkit 获取预构建的集群蓝图。
AI 优化型硬件
存储
网络
计算:可使用 Google Cloud TPU (Trillium)、NVIDIA GPU (Blackwell) 和 CPU (Axion)。这样,您就可以根据具体工作负载的吞吐量、延迟或 TCO 需求进行优化。
领先的软件和开放框架
使用模式: