AI Hypercomputer 是 Google Cloud 上每个 AI 工作负载背后的集成式超级计算系统。它由硬件、软件和使用模式组成,旨在简化 AI 部署、提升系统级效率并优化成本。
概览
借助业界领先的软件,充分发挥硬件性能。该软件集成了开放框架、库和编译器,有助于提高 AI 开发、集成与管理效率。
常见用途
推理正在迅速变得更加多样和复杂,主要体现在以下三个方面:
PUMA 与 Google Cloud 合作以利用其集成式 AI 基础设施 (AI Hypercomputer),通过本次合作可以使用 Gemini 处理用户提示并使用动态工作负载调度器在 GPU 上动态扩缩推理,从而大幅降低成本和生成时间。
影响:
推理正在迅速变得更加多样和复杂,主要体现在以下三个方面:
PUMA 与 Google Cloud 合作以利用其集成式 AI 基础设施 (AI Hypercomputer),通过本次合作可以使用 Gemini 处理用户提示并使用动态工作负载调度器在 GPU 上动态扩缩推理,从而大幅降低成本和生成时间。
影响:
训练工作负载需在紧密耦合的集群中跨数千个节点以高度同步的作业形式运行。单个降级节点可能会中断整个作业,进而延迟产品上市时间。您需要执行的操作:
我们希望让客户非常轻松地在 Google Cloud 上部署和扩缩训练工作负载。
如需创建 AI 集群,请先从我们的任一教程入手:
Moloco 依靠 AI Hypercomputer 的完全集成式堆栈,在 TPU 和 GPU 等高级硬件上自动扩缩,这让 Moloco 工程师得以解放出来;同时,与 Google 业界领先的数据平台集成,为 AI 工作负载创建了一个统一连贯的端到端系统。
在推出首个深度学习模型后,Moloco 实现了爆发式增长和盈利,在 2 年半的时间里增长了 5 倍,并实现了以下目标:
如需创建 AI 集群,请先从我们的任一教程入手:
Moloco 依靠 AI Hypercomputer 的完全集成式堆栈,在 TPU 和 GPU 等高级硬件上自动扩缩,这让 Moloco 工程师得以解放出来;同时,与 Google 业界领先的数据平台集成,为 AI 工作负载创建了一个统一连贯的端到端系统。
在推出首个深度学习模型后,Moloco 实现了爆发式增长和盈利,在 2 年半的时间里增长了 5 倍,并实现了以下目标:
Google Cloud 提供包含常见操作系统、框架、库和驱动的镜像。AI Hypercomputer 会优化这些预配置镜像,以更好地支持您的 AI 工作负载。
“与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官
Google Cloud 提供包含常见操作系统、框架、库和驱动的镜像。AI Hypercomputer 会优化这些预配置镜像,以更好地支持您的 AI 工作负载。
“与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官
常见问题解答
虽然各项服务提供特定功能,但 AI Hypercomputer 提供了一个集成系统,其中的硬件、软件与使用模式经过协同设计,可实现最佳运行效果。这种集成在性能、成本和上市时间方面带来了系统级的效率提升,而通过拼接不同的服务往往难以达到这一效果。它简化了复杂系统,并为 AI Infrastructure 提供全面的解决方案。
没错,AI Hypercomputer 在设计时充分考虑了灵活性。Cross-Cloud Interconnect 等技术可为本地数据中心与其他云平台提供高带宽连接,从而加速混合云与多云 AI 策略的实施。我们采用开放标准,并集成主流第三方软件,使您能够构建跨多个环境的解决方案,并按需更换服务。
安全性是 AI Hypercomputer 的核心组成部分。它受益于 Google Cloud 的多层安全模型。具体功能包括 Titan 安全微控制器(确保系统从可信状态启动)、RDMA 防火墙(在训练期间实现 TPU/GPU 之间的零信任网络连接),以及与 Model Armor 等 AI 安全解决方案的集成。这些功能还辅以诸如安全 AI 框架等稳健的基础设施安全政策与原则。
否。AI Hypercomputer 可用于任意规模的工作负载。即使是较小规模的工作负载,也能充分发挥集成系统的各项优势,例如高效性和部署简化。AI Hypercomputer 还可在客户业务扩展过程中提供支持,从小型概念验证和试验阶段到大规模生产部署,始终保持灵活应对。
对于大多数客户而言,像 Vertex AI 这样的托管式 AI 平台是最简单的 AI 入门方式,因为其中内置了所有工具、模板和模型。此外,Vertex AI 由 AI Hypercomputer 提供支持,并以对您有利的方式进行了优化。Vertex AI 是最便捷的入门途径,因为它提供了最简化的体验。如果您希望自行配置和优化基础设施的每个组件,则可以将 AI Hypercomputer 的各个组件作为基础设施访问,并按您的需求进行组装。
是的,我们正在 GitHub 中构建一个 recipe 库。您还可以使用 Cluster Toolkit 获取预构建的集群蓝图。
AI 优化型硬件
存储
网络
计算:可使用 Google Cloud TPU (Trillium)、NVIDIA GPU (Blackwell) 和 CPU (Axion)。这样,您就可以根据具体工作负载的吞吐量、延迟或 TCO 需求进行优化。
领先的软件和开放框架
使用模式: