我们宣布推出 Ironwood，这是我们迄今为止功能最强大、能源效率最高的 TPU，旨在为大规模的思考型推理 AI 模型提供支持。

云张量处理单元 (TPU)

利用 Google Cloud TPU 加速 AI 开发

从训练到推理，所有 Cloud 工作负载都能利用 Cloud TPU 来优化性能和费用。使用先进的数据中心基础架构，TPU 可提供较高的可靠性、可用性和安全性。

不确定 TPU 是否适合自己？了解何时在 Compute Engine 实例上使用 GPU 或 CPU 来运行机器学习工作负载。

概览

什么是张量处理单元 (TPU)？

Google Cloud TPU 是定制设计的 AI 加速器，针对 AI 模型的训练和推理进行了优化。它们非常适合各种应用场景，例如智能体、代码生成、媒体内容生成、合成语音、视觉服务、商品推荐引擎和个性化模型等。TPU 为 Gemini 和 Google 的所有 AI 赋能的应用（如 Google 搜索、Google 相册和 Google 地图）提供支持，这些应用服务于超过 10 亿用户。

Cloud TPU 有哪些优势？

Cloud TPU 能够针对各种 AI 工作负载（涵盖训练、微调和推理）进行经济高效的扩缩。Cloud TPU 提供了多种功能，可加速领先 AI 框架（包括 PyTorch、JAX 和 TensorFlow）上的工作负载。通过 Google Kubernetes Engine (GKE) 中的 Cloud TPU 集成，无缝编排大规模 AI 工作负载。利用动态工作负载调度程序同时安排所有需要的加速器，从而提高工作负载的可伸缩性。寻求最简单的 AI 模型开发方法的客户还可以在全托管式 AI 平台 Vertex AI 中利用 Cloud TPU。

何时使用 Cloud TPU？

Cloud TPU 经过优化，适合训练需要进行大量矩阵计算的大型复杂深度学习模型，例如构建大型语言模型 (LLM)。Cloud TPU 还具有 SparseCore，这是一种数据流处理器，可利用推荐模型中的嵌入来加速模型。其他应用场景包括医疗保健，例如蛋白质折叠建模和药物研发。

Cloud TPU 与 GPU 有何不同？

GPU 是专门为处理计算机图形而设计的处理器。并行结构使其非常适合处理 AI 工作负载中常见的大数据块的算法。了解详情。

TPU 是 Google 专为神经网络设计的应用专用集成电路 (ASIC)。TPU 具有专用功能，例如矩阵乘法单元 (MXU) 和专有的互连拓扑，因此非常适合用于加快 AI 训练和推理速度。

Cloud TPU 版本

Cloud TPU 版本	说明	可用情况
Trillium	迄今为止最先进的 Cloud TPU	Trillium 已在北美（美国东部区域）、欧洲（西欧区域）和亚洲（东北亚区域）全面上线
Cloud TPU v5p	用于训练 AI 模型的强大 Cloud TPU	Cloud TPU v5p 现已在北美（美国东部区域）正式发布
Cloud TPU v5e	功能多样的 Cloud TPU，满足训练和推理需求	Cloud TPU v5e 现已在北美（美国中部/东部/南部/西部区域）、欧洲（西欧区域）和亚洲（东南亚区域）正式发布

有关 Cloud TPU 版本的更多信息

Trillium

说明

迄今为止最先进的 Cloud TPU

可用情况

Trillium 已在北美（美国东部区域）、欧洲（西欧区域）和亚洲（东北亚区域）全面上线

Cloud TPU v5p

说明

用于训练 AI 模型的强大 Cloud TPU

可用情况

Cloud TPU v5p 现已在北美（美国东部区域）正式发布

Cloud TPU v5e

说明

功能多样的 Cloud TPU，满足训练和推理需求

可用情况

Cloud TPU v5e 现已在北美（美国中部/东部/南部/西部区域）、欧洲（西欧区域）和亚洲（东南亚区域）正式发布

有关 Cloud TPU 版本的更多信息

工作方式

深入了解 Google Cloud TPU 的神奇之处，包括执行各种操作的数据中心的罕见内部视图。客户使用 Cloud TPU 运行一些全球规模最大的 AI 工作负载，其强大能力远不止芯片。在本视频中，我们将介绍 TPU 系统的组件，包括数据中心网络、光学电路开关、水冷却系统、生物识别安全性验证等。

常见用途

运行大规模 AI 训练工作负载

如何扩缩模型

训练 LLM 通常感觉像炼金术，但了解和优化模型的性能却并非如此。本书旨在揭开在 TPU 上扩缩语言模型的科学面纱：TPU 如何运作以及如何相互通信、LLM 如何在真实硬件上运行，以及如何在训练和推理过程中并行处理模型，以便大规模高效运行。

方法指南

如何扩缩模型

训练 LLM 通常感觉像炼金术，但了解和优化模型的性能却并非如此。本书旨在揭开在 TPU 上扩缩语言模型的科学面纱：TPU 如何运作以及如何相互通信、LLM 如何在真实硬件上运行，以及如何在训练和推理过程中并行处理模型，以便大规模高效运行。

其他资源

强大、可伸缩且高效的 AI 训练

借助 Cloud TPU，最大限度地提高性能、效率并缩短价值实现时间。通过 Cloud TPU 多切片训练，扩展到数千个芯片。利用 ML Goodput Measurement 衡量和提高大规模机器学习训练的效率。通过 MaxText 和 MaxDiffusion（适用于大型模型训练的开源参考部署）快速上手。

微调基础 AI 模型

使用 Pytorch/XLA 调整 LLM 以适应您的应用

利用可代表您的使用场景的训练数据，高效微调基础模型。Cloud TPU v5e 的每美元 LLM 微调性能比 Cloud TPU v4 高至 1.9 倍。

其他资源

使用 Pytorch/XLA 调整 LLM 以适应您的应用

利用可代表您的使用场景的训练数据，高效微调基础模型。Cloud TPU v5e 的每美元 LLM 微调性能比 Cloud TPU v4 高至 1.9 倍。

处理大规模 AI 推理工作负载

高性能、可扩缩且经济高效的推理

利用 JetStream 和 MaxDiffusion 加快 AI 推理速度。JetStream 是专为大语言模型 (LLM) 推理设计的新推理引擎。JetStream 代表了我们在性能和成本效益上的重大飞跃，可在 Cloud TPU 上为 LLM 推理提供出色的吞吐量和延迟。MaxDiffusion 是一组针对 Cloud TPU 进行了优化的 diffusion 模型实现，让您可以轻松地在 Cloud TPU 上针对 diffusion 模型以高性能运行推理。

方法指南

高性能、可扩缩且经济高效的推理

利用 JetStream 和 MaxDiffusion 加快 AI 推理速度。JetStream 是专为大语言模型 (LLM) 推理设计的新推理引擎。JetStream 代表了我们在性能和成本效益上的重大飞跃，可在 Cloud TPU 上为 LLM 推理提供出色的吞吐量和延迟。MaxDiffusion 是一组针对 Cloud TPU 进行了优化的 diffusion 模型实现，让您可以轻松地在 Cloud TPU 上针对 diffusion 模型以高性能运行推理。

其他资源

利用可扩缩的 AI 基础架构，实现最高的性价比

Cloud TPU v5e 可为各种 AI 工作负载（包括最新的 LLM 和生成式 AI 模型）实现高性能且经济高效的推理。与 Cloud TPU v4 相比，TPU v5e 可将性价比最多提高到 2.5 倍，并将速度最多提高到 1.7 倍。每个 TPU v5e 芯片每秒可提供高达 393 万亿次的 int8 运算，从而使复杂的模型进行快速预测。TPU v5e Pod 每秒可提供高达 10 亿亿次 int8 运算，即 100 petaOps 的计算能力。

GKE 中的 Cloud TPU

借助平台编排运行经过优化的 AI 工作负载

强大的 AI/机器学习平台通常包含以下层：(i) 支持使用 GPU 大规模训练和服务工作负载的基础设施编排；(ii) 与分布式计算和数据处理框架灵活集成；(iii) 支持多个团队使用同一基础设施，以最大限度地提高资源利用率。

GKE

方法指南

借助平台编排运行经过优化的 AI 工作负载

强大的 AI/机器学习平台通常包含以下层：(i) 支持使用 GPU 大规模训练和服务工作负载的基础设施编排；(ii) 与分布式计算和数据处理框架灵活集成；(iii) 支持多个团队使用同一基础设施，以最大限度地提高资源利用率。

GKE

其他资源

使用 GKE 轻松扩缩

将 Cloud TPU 的强大功能与 GKE 的灵活性和可伸缩性相结合，比以往更快速、更轻松地构建和部署机器学习模型。利用 GKE 中提供的 Cloud TPU，您现在可以为所有工作负载提供一个一致的运营环境，从而实现自动 MLOps 流水线的标准化。

Vertex AI 中的 Cloud TPU

带有 Cloud TPU 的 Vertex AI 训练和预测

对于希望以最简单的方式开发 AI 模型的客户，您可以使用 Vertex AI 部署 Cloud TPU v5e。Vertex AI 是一个端到端平台，用于在全代管式基础架构上构建 AI 模型，该基础架构专为低延迟服务和高性能训练而打造。

其他资源

带有 Cloud TPU 的 Vertex AI 训练和预测

对于希望以最简单的方式开发 AI 模型的客户，您可以使用 Vertex AI 部署 Cloud TPU v5e。Vertex AI 是一个端到端平台，用于在全代管式基础架构上构建 AI 模型，该基础架构专为低延迟服务和高性能训练而打造。

生成解决方案

您想解决什么问题？

What you'll get:

分步指南

参考架构

可用的预构建解决方案

此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

价格

Cloud TPU 价格	所有 Cloud TPU 价格均按芯片小时数计算
Cloud TPU 版本	评估价格（美元）	1 年承诺（美元）	3 年承诺（美元）
Trillium	起价 $2.7000 每芯片小时	起价 $1.8900 每芯片小时	起价 $1.2200 每芯片小时
Cloud TPU v5p	起价 $4.2000 每芯片小时	起价 $2.9400 每芯片小时	起价 $1.8900 每芯片小时
Cloud TPU v5e	起价 $1.2000 每芯片小时	起价 $0.8400 每芯片小时	起价 $0.5400 每芯片小时

Cloud TPU 价格因产品和区域而异。

Cloud TPU 价格

所有 Cloud TPU 价格均按芯片小时数计算

Trillium

评估价格（美元）

Starting at

$2.7000

每芯片小时

1 年承诺（美元）

Starting at

$1.8900

每芯片小时

3 年承诺（美元）

Starting at

$1.2200

每芯片小时

Cloud TPU v5p

评估价格（美元）

Starting at

$4.2000

每芯片小时

1 年承诺（美元）

Starting at

$2.9400

每芯片小时

3 年承诺（美元）

Starting at

$1.8900

每芯片小时

Cloud TPU v5e

评估价格（美元）

Starting at

$1.2000

每芯片小时

1 年承诺（美元）

Starting at

$0.8400

每芯片小时

3 年承诺（美元）

Starting at

$0.5400

每芯片小时

Cloud TPU 价格因产品和区域而异。

价格计算器

估算您的每月 Cloud TPU 费用，包括特定于区域的价格和费用。

定制报价

请与我们的销售团队联系，获取为贵组织量身定制的报价。

云张量处理单元 (TPU)

利用 Google Cloud TPU 加速 AI 开发

产品亮点

什么是张量处理单元 (TPU)？

Cloud TPU 有哪些优势？

何时使用 Cloud TPU？

Cloud TPU 与 GPU 有何不同？

运行大规模 AI 训练工作负载

如何扩缩模型

强大、可伸缩且高效的 AI 训练

方法指南

如何扩缩模型

其他资源

强大、可伸缩且高效的 AI 训练

微调基础 AI 模型

使用 Pytorch/XLA 调整 LLM 以适应您的应用

其他资源

使用 Pytorch/XLA 调整 LLM 以适应您的应用

处理大规模 AI 推理工作负载

高性能、可扩缩且经济高效的推理

利用可扩缩的 AI 基础架构，实现最高的性价比

方法指南

高性能、可扩缩且经济高效的推理

其他资源

利用可扩缩的 AI 基础架构，实现最高的性价比

GKE 中的 Cloud TPU

借助平台编排运行经过优化的 AI 工作负载

使用 GKE 轻松扩缩

方法指南

借助平台编排运行经过优化的 AI 工作负载

其他资源

使用 GKE 轻松扩缩

Vertex AI 中的 Cloud TPU

带有 Cloud TPU 的 Vertex AI 训练和预测

其他资源

带有 Cloud TPU 的 Vertex AI 训练和预测

价格计算器

定制报价

开始概念验证

免费试用 Cloud TPU

快速了解如何使用 Cloud TPU

在 Cloud TPU 虚拟机上运行 TensorFlow

在 Cloud TPU 虚拟机上运行 JAX

在 Cloud TPU 虚拟机上运行 PyTorch