AI Infrastructure 机器学习和深度学习模型训练

过去，使用 Cloud TPU 和 Cloud GPU 编排大型 AI 工作负载需要手动处理故障、日志记录、监控和其他基础运维工作。Google Kubernetes Engine (GKE) 是伸缩能力极强的全代管式 Kubernetes 服务，可大大简化运维 TPU 和 GPU 所需的工作。利用 GKE 管理 Cloud TPU 和 Cloud GPU 上的大规模 AI 工作负载编排可以提高 AI 开发效率。

对于喜欢通过代管式服务来摆脱基础架构的组织，Vertex AI 现在支持使用 Cloud TPU 和 Cloud GPU 通过各种框架和库进行训练。

以指数方式扩缩 AI 模型

我们构建了经 AI 优化的基础架构，以覆盖全球的扩缩能力和出色性能，支撑起服务数十亿用户的 Google 产品（如 YouTube、Gmail、Google 地图、Google Play 和 Android）。我们的 AI 基础架构解决方案均以 Google Cloud 的 Jupiter 数据中心网络为依托。从基础服务的出色横向扩容能力到高强度 AI 工作负载，均能有力支持。

高度灵活且开放的平台

几十年来，我们一直在为 TensorFlow 和 JAX 等关键的 AI 项目贡献力量。我们创立了 PyTorch Foundation，并于最近宣布成立了一个新的行业联盟：OpenXLA 项目。此外，Google 还是领先的 CNCF 开源贡献者，有 20 多年的 OSS 贡献历史（例如 TFX、MLIR、OpenXLA、KubeFlow 和 Kubernetes）；并赞助了对数据科学社区至关重要的 OSS 项目，例如 Jupyter 项目和 NumFOCverteUS。

此外，我们的 AI 基础架构服务嵌入了最热门的 AI 框架（如 TensorFlow、PyTorch 和 MXNet），客户可以继续使用他们喜欢的任何框架，不受限于特定框架/或硬件架构。

博客

宣布推出 TPU v5p 和 AI Hypercomputer

客户

利用 Google Cloud 的 AI 基础架构的客户

随着 AI 为各行各业打开创新大门，众多公司纷纷选择 Google Cloud，以充分利用我们开放、灵活且高性能的基础架构。

News

Anthropic 与 Google Cloud 建立合作伙伴关系，以帮助提供可靠且负责任的 AI

阅读用时：5 分钟

Blog post

Cohere 如何利用 Google Cloud TPU 加速语言模型训练

阅读用时：10 分钟

News

Midjourney 选择 Google Cloud 来为 AI 生成的广告素材平台提供支持

阅读用时：5 分钟

Blog post

Osmo 如何利用 Google Cloud AI 技术对气味进行数字化

阅读用时：5 分钟

Blog post

AI21 利用 Google Cloud 基础架构（包括 GPU 和 TPU）进行训练和推断

阅读用时：5 分钟

查看所有客户

GKE 上的 AI Infrastructure 工具

使用 Google Kubernetes Engine (GKE) 平台编排功能运行经过优化的 AI/机器学习工作负载。

了解详情

Google Cloud Basics

Deep Learning VM Image

Deep Learning VM Image 针对数据科学和机器学习任务进行了优化。此类映像附带预安装的主要机器学习框架和工具，可与 GPU 配合使用。

了解详情

Google Cloud Basics

Deep Learning Containers

Deep Learning Containers 是性能经过优化的一致环境，可帮助您在 CPU 或 GPU 上快速设计工作流的原型和实现工作流。

了解详情

Tutorial

张量处理单元如何针对 AI/机器学习进行优化？

了解机器学习的计算要求，以及如何专门构建 TPU 来处理任务。

了解详情

Google Cloud Basics

TPU 系统架构

TPU 是 Google 定制开发的 ASIC，用于加速机器学习工作负载。从头开始了解 TPU 的底层系统架构。

了解详情

没有看到您需要的内容？

查看所有产品文档

使用场景

AI 超计算机架构

使用场景

加快大规模 AI 训练速度

Cloud TPU Multislice 训练是一种全栈技术，让您可以在数以万计的 TPU 芯片上快速、轻松、可靠地进行大规模 AI 模型训练。

Google Cloud basics

如何使用 Cloud TPU 多切片扩缩 AI 训练规模

Cloud TPU 多切片是一种全栈大规模训练技术，使您能够以简单、经济实惠且近线性的方式扩容到数万个芯片。

了解详情

Quickstart

使用 NVIDIA Nemo 框架进行大规模训练

了解如何部署 Google Cloud HPC 工具包以及 NVIDIA NEMO 框架以进行分布式训练。

了解详情

使用场景

交付 AI 赋能的应用

Google Cloud 的开放软件生态系统让您可以使用自己最熟悉的工具和框架构建应用，同时充分利用 AI Hypercomputer 架构的性价比优势。

Google Cloud basics

在全托管式 GKE 上运行 AI

Auto Pilot 模式下的 Google Kubernetes Engine 是一种运行训练和大语言模型 (LLM) 服务等 AI 工作负载的常用方式。

了解详情

Google Cloud basics

Ray on Google Kubernetes Engine 使用入门

Ray.io 是一个开源框架，可轻松跨集群中的多个节点对 Python 应用进行扩容。

了解详情

使用场景

最大限度地提高大规模提供 AI 服务的性价比

Cloud TPU v5e 和 NVIDIA L4 GPU 可针对各种 AI 工作负载（包括最新的 LLM 和生成式 AI 模型）实现高性能且具有成本效益的推理。与以前的模型相比，两者的性价比都得到了显著提升，并且 Google Cloud 的 AI Hypercomputer 架构能够让客户将部署规模扩展到行业领先的水平。

Google Cloud basics

Cloud TPU v5e 可加快大规模 AI 推理的速度

Google Cloud TPU 使企业能够以更低的成本、以更大的规模、更快地基于先进的 AI 模型运行推理。

了解详情

Quickstart

在单个 GPU 上通过 GKE 提供模型

了解如何利用单个 GPU 通过 GKE 提供开放式模型。

了解详情

Google Cloud basics

将模型服务扩展到多个 GPU

了解如何在 GKE 上跨多个 GPU 扩缩通用开源模型服务。

了解详情

查看所有技术指南

价格

AI Infrastructure 的价格取决于您选择的产品。您可以通过 Colab 或 Google Cloud 的免费层级免费开始使用 Google 的 AI 基础架构。

Cloud TPU	Cloud GPU
如需了解各类单设备 TPU 和 TPU Pod 的 TPU 价格，请参阅 TPU 价格。	如需了解各种 GPU 类型的价格和适用区域，请参阅 GPU 价格。

Cloud AI 产品遵循我们的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品，开始在 Google Cloud 上构建项目。

免费试用 Google Cloud

不知从何入手，需要一点帮助？
联系业务代表
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品

AI 基础架构

大规模优化性能并降低费用

利用代管式基础架构更快地交付成果

使用专为 AI 打造的软件进行开发

主要特性

灵活且可扩缩的硬件，适合任何使用场景

易于使用、管理和扩缩

以指数方式扩缩 AI 模型

高度灵活且开放的平台

利用 Google Cloud 的 AI 基础架构的客户

最新资讯

文档

GKE 上的 AI Infrastructure 工具

Deep Learning VM Image

Deep Learning Containers

张量处理单元如何针对 AI/机器学习进行优化？

TPU 系统架构

没有看到您需要的内容？

AI 超计算机架构

加快大规模 AI 训练速度

交付 AI 赋能的应用

最大限度地提高大规模提供 AI 服务的性价比

价格

更进一步

不知从何入手，需要一点帮助？

与值得信赖的合作伙伴携手

继续浏览