跳转到
AI 基础架构

AI 基础架构

可伸缩、性能出色且经济实惠的基础架构,适合所有 AI 工作负载。

  • AI 加速器适用于从高性能训练到低成本推断的各种使用场景

  • 在 Google Kubernetes Engine 或 Google Compute Engine 上使用 GPU 和 TPU 实现快速扩缩

  • 适用于 Vertex AI、Google Kubernetes Engine 和 Cloud HPC Toolkit 的可部署解决方案

  • 通过部署 AI Hypercomputer 架构,充分利用我们的 AI Infrastructure

优势

大规模优化性能并降低费用

在 Google Cloud 中,您可以从 GPU、TPU 或 CPU 中进行选择,以支持各种应用场景,包括高性能训练、低成本推断和大规模数据处理。

利用代管式基础架构更快地交付成果

利用 Vertex AI 提供的代管式基础架构,更快、更高效地进行扩缩。快速设置机器学习环境,自动执行编排,管理大型集群并设置低延迟应用。

使用专为 AI 打造的软件进行开发

利用 GKE 管理大规模工作负载,从而提高 AI 开发效率。训练和部署基础模型,并获享自动扩缩、工作负载编排和自动升级功能方面的支持。

主要特性

主要特性

灵活且可扩缩的硬件,适合任何使用场景

AI 工作负载没有放之四海而皆准的方案,因此,我们与 NVIDIA、Intel、AMD、Arm 等行业硬件合作伙伴携手,为客户提供了范围最广泛的 AI 优化型计算方案,涵盖 TPUGPUCPU,可供训练和部署数据密集化程度最高的模型。

易于使用、管理和扩缩

过去,使用 Cloud TPU 和 Cloud GPU 编排大型 AI 工作负载需要手动处理故障、日志记录、监控和其他基础运维工作。Google Kubernetes Engine (GKE) 是伸缩能力极强的全代管式 Kubernetes 服务,可大大简化运维 TPU 和 GPU 所需的工作。利用 GKE 管理 Cloud TPU 和 Cloud GPU 上的大规模 AI 工作负载编排可以提高 AI 开发效率。

对于喜欢通过代管式服务来摆脱基础架构的组织,Vertex AI 现在支持使用 Cloud TPU 和 Cloud GPU 通过各种框架和库进行训练。

以指数方式扩缩 AI 模型

我们构建了经 AI 优化的基础架构,以覆盖全球的扩缩能力和出色性能,支撑起服务数十亿用户的 Google 产品(如 YouTube、Gmail、Google 地图、Google Play 和 Android)。 我们的 AI 基础架构解决方案均以 Google Cloud 的 Jupiter 数据中心网络为依托。从基础服务的出色横向扩容能力到高强度 AI 工作负载,均能有力支持。

高度灵活且开放的平台

几十年来,我们一直在为 TensorFlow 和 JAX 等关键的 AI 项目贡献力量。 我们创立了 PyTorch Foundation,并于最近宣布成立了一个新的行业联盟:OpenXLA 项目。此外,Google 还是领先的 CNCF 开源贡献者,有 20 多年的 OSS 贡献历史(例如 TFX、MLIR、OpenXLA、KubeFlow 和 Kubernetes);并赞助了对数据科学社区至关重要的 OSS 项目,例如 Jupyter 项目和 NumFOCverteUS。

此外,我们的 AI 基础架构服务嵌入了最热门的 AI 框架(如 TensorFlow、PyTorch 和 MXNet),客户可以继续使用他们喜欢的任何框架,不受限于特定框架/或硬件架构。

文档

文档

Google Cloud Basics

GKE 上的 AI Infrastructure 工具

使用 Google Kubernetes Engine (GKE) 平台编排功能运行经过优化的 AI/机器学习工作负载。
Google Cloud Basics

Deep Learning VM Image

Deep Learning VM Image 针对数据科学和机器学习任务进行了优化。此类映像附带预安装的主要机器学习框架和工具,可与 GPU 配合使用。
Google Cloud Basics

Deep Learning Containers

Deep Learning Containers 是性能经过优化的一致环境,可帮助您在 CPU 或 GPU 上快速设计工作流的原型和实现工作流。
Tutorial

张量处理单元如何针对 AI/机器学习进行优化?

了解机器学习的计算要求,以及如何专门构建 TPU 来处理任务。
Google Cloud Basics

TPU 系统架构

TPU 是 Google 定制开发的 ASIC,用于加速机器学习工作负载。从头开始了解 TPU 的底层系统架构。

没有看到您需要的内容?

使用场景

AI 超计算机架构

使用场景
最大限度地提高大规模提供 AI 服务的性价比

Cloud TPU v5e 和 NVIDIA L4 GPU 可针对各种 AI 工作负载(包括最新的 LLM 和生成式 AI 模型)实现高性能且具有成本效益的推理。与以前的模型相比,两者的性价比都得到了显著提升,并且 Google Cloud 的 AI Hypercomputer 架构能够让客户将部署规模扩展到行业领先的水平。

AI 推理性能高达 2.7 倍/$ 图表

价格

价格

AI Infrastructure 的价格取决于您选择的产品。您可以通过 Colab 或 Google Cloud 的免费层级免费开始使用 Google 的 AI 基础架构。

Cloud TPU
Cloud GPU
如需了解各类单设备 TPU 和 TPU Pod 的 TPU 价格,请参阅 TPU 价格
如需了解各种 GPU 类型的价格和适用区域,请参阅 GPU 价格

Cloud AI 产品遵循我们的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台