集成式超级计算架构

AI Hypercomputer

AI 优化了硬件、软件和消耗情况,这些因素共同提高了生产力和效率。

概览

性能优化型硬件

我们的基础架构(包括 Google Cloud TPUGoogle Cloud GPUGoogle Cloud Storage 和底层 Jupiter 网络)在性能上经过优化,具有强大的缩放特性,能一致地为大型最先进的模型提供最快的训练速度,因此是对大型模型而言性价比最高的架构。

开放软件

我们的架构经过优化,可支持最常见的工具和库,例如 TensorflowPytorchJAX。此外,客户还可以利用 Cloud TPU 多切片和多主机配置等技术,以及 Google Kubernetes Engine 等托管式服务。这让客户能够为常见工作负载(例如由 SLURM 编排的 NVIDIA NeMO 框架)提供开箱即用的部署服务。

灵活使用

我们灵活的消费模式允许客户根据自己的业务需求,选择具有承诺使用折扣的固定费用或动态的按需模式。动态工作负载调度程序可帮助客户获得所需的容量,而不会产生过度分配,因此只需为需要的资源付费。此外,Google Cloud 的费用优化工具有助于自动利用资源,减少工程师的手动任务。

工作方式

Google 开发出了 TensorFlow 等技术,是人工智能领域的领军者。你知道吗?你可以在自己的项目中利用 Google 的技术。了解 Google 在 AI 基础架构方面的创新轨迹,以及如何利用这些创新技术来处理您的工作负载。

Google Cloud AI Hypercomputer 架构图,旁边是 Google Cloud 产品经理 Chelsie 的照片

常见用途

运行大规模 AI 训练

强大、可伸缩且高效的 AI 训练

AI Hypercomputer 架构提供了选择性,让您可以使用可伸缩性最强的底层基础架构来满足训练需求。

如何针对 AI 工作负载定义存储基础架构
描述 AI 增长因素的三个图表

强大、可伸缩且高效的 AI 训练

AI Hypercomputer 架构提供了选择性,让您可以使用可伸缩性最强的底层基础架构来满足训练需求。

如何针对 AI 工作负载定义存储基础架构
描述 AI 增长因素的三个图表

强大、可伸缩且高效的 AI 训练

使用机器学习效率 Goodput 衡量以 Google 的方式进行大规模训练的效率。

隆重推出机器学习效率 Goodput:一项衡量 AI 系统效率的指标
训练速度 TPUv4(bf16) 与 TPUv5(int8)

Character AI 利用 Google Cloud 扩大规模

“我们需要 GPU 来生成对用户消息的响应。随着我们平台上的用户越来越多,我们需要更多的 GPU 来为他们提供服务。因此,我们可以在 Google Cloud 上开展实验,寻找适合特定工作负载的平台。可以灵活选择最有价值的解决方案,真是太好了。”Myle Ott,Character.AI 创始工程师

立即观看

交付 AI 赋能的应用

利用开放式框架提供 AI 赋能的体验

Google Cloud 的开放软件生态系统让您可以使用自己最熟悉的工具和框架构建应用,同时充分利用 AI Hypercomputer 架构的性价比优势。

Google Cloud AI 工具和框架

Priceline:帮助旅客策划独特体验

“与 Google Cloud 合作采用生成式 AI 后,我们通过聊天机器人就能提供定制旅行规划服务。我们的目标不仅仅是为客户安排行程,还要协助他们打造独特的旅行体验。”Martin Brodbeck,Priceline 首席技术官

了解详情
Priceline 徽标

经济高效地大规模提供模型

最大限度地提高大规模提供 AI 服务的性价比

Google Cloud 提供业界领先的性价比,让您可以选择加速器来部署 AI 模型,以因应任何工作负载的需求。

借助自定义 AI 感知负载均衡,最大限度地缩短推理延迟时间
基于队列深度架构的负载均衡图

最大限度地提高大规模提供 AI 服务的性价比

Google Cloud 提供业界领先的性价比,让您可以选择加速器来部署 AI 模型,以因应任何工作负载的需求。

借助自定义 AI 感知负载均衡,最大限度地缩短推理延迟时间
基于队列深度架构的负载均衡图

最大限度地提高大规模提供 AI 服务的性价比

提供 NVIDIA L4 GPU 的 Cloud TPU v5e 和 G2 虚拟机实例能够针对各种各样的 AI 工作负载(包括最新的 LLM 和生成式 AI 模型)进行高性能且经济实惠的推理。与以前的模型相比,两者的性价比都得到了显著提升,并且 Google Cloud 的 AI Hypercomputer 架构能够让客户将部署规模扩大到行业领先的水平。

比较性价比:Cloud TPU v4 和 v5e

Assembly AI 利用 Google Cloud 提高成本效益

“我们的实验结果表明,对于我们的模型,在进行大规模推理时,Cloud TPU v5e 是最具成本效益的加速器。其性价比是 G2 的 2.7 倍,是 A2 实例的 4.2 倍。”Domenic Donato,

AssemblyAI 技术副总裁


了解详情
AssemblyAI 徽标

Google Cloud 上的开源模型

在单个 GPU 上通过 GKE 提供模型

使用 GPU 训练通用模型

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台