不确定 TPU 是否适合自己? 了解何时在 Compute Engine 实例上使用 GPU 或 CPU 来运行机器学习工作负载。
概览
Cloud TPU 能够针对各种 AI 工作负载(涵盖训练、微调和推理)进行经济高效的扩缩。Cloud TPU 提供了多种功能,可加速领先 AI 框架(包括 PyTorch、JAX 和 TensorFlow)上的工作负载。通过 Google Kubernetes Engine (GKE) 中的 Cloud TPU 集成,无缝编排大规模 AI 工作负载。利用动态工作负载调度程序同时安排所有需要的加速器,从而提高工作负载的可伸缩性。寻求最简单的 AI 模型开发方法的客户还可以在全托管式 AI 平台 Vertex AI 中利用 Cloud TPU。
GPU 是专门为处理计算机图形而设计的处理器。并行结构使其非常适合处理 AI 工作负载中常见的大数据块的算法。了解详情。
TPU 是 Google 专为神经网络设计的应用专用集成电路 (ASIC)。TPU 具有专用功能,例如矩阵乘法单元 (MXU) 和专有的互连拓扑,因此非常适合用于加快 AI 训练和推理速度。
Cloud TPU 版本
Cloud TPU 版本 | 说明 | 可用情况 |
---|---|---|
Trillium | 迄今为止最先进的 Cloud TPU | 在预览版期间,Trillium 可在北美(美国东部区域)、欧洲(西部区域)和亚洲(东北区域)使用 |
Cloud TPU v5p | 用于训练 AI 模型的强大 Cloud TPU | Cloud TPU v5p 现已在北美(美国东部区域)正式发布 |
Cloud TPU v5e | 功能多样的 Cloud TPU,满足训练和推理需求 | Cloud TPU v5e 现已在北美(美国中部/东部/南部/西部区域)、欧洲(西欧区域)和亚洲(东南亚区域)正式发布 |
有关 Cloud TPU 版本的更多信息
Trillium
迄今为止最先进的 Cloud TPU
在预览版期间,Trillium 可在北美(美国东部区域)、欧洲(西部区域)和亚洲(东北区域)使用
Cloud TPU v5p
用于训练 AI 模型的强大 Cloud TPU
Cloud TPU v5p 现已在北美(美国东部区域)正式发布
Cloud TPU v5e
功能多样的 Cloud TPU,满足训练和推理需求
Cloud TPU v5e 现已在北美(美国中部/东部/南部/西部区域)、欧洲(西欧区域)和亚洲(东南亚区域)正式发布
有关 Cloud TPU 版本的更多信息
常见用途
借助 Cloud TPU,最大限度地提高性能、效率并缩短价值实现时间。通过 Cloud TPU 多切片训练,扩展到数千个芯片。利用 ML Goodput Measurement 衡量和提高大规模机器学习训练的效率。通过 MaxText 和 MaxDiffusion(适用于大型模型训练的开源参考部署)快速上手。
借助 Cloud TPU,最大限度地提高性能、效率并缩短价值实现时间。通过 Cloud TPU 多切片训练,扩展到数千个芯片。利用 ML Goodput Measurement 衡量和提高大规模机器学习训练的效率。通过 MaxText 和 MaxDiffusion(适用于大型模型训练的开源参考部署)快速上手。
利用 JetStream 和 MaxDiffusion 加快 AI 推理速度。JetStream 是专为大语言模型 (LLM) 推理设计的新推理引擎。JetStream 代表了我们在性能和成本效益上的重大飞跃,可在 Cloud TPU 上为 LLM 推理提供出色的吞吐量和延迟。MaxDiffusion 是一组针对 Cloud TPU 进行了优化的 diffusion 模型实现,让您可以轻松地在 Cloud TPU 上针对 diffusion 模型以高性能运行推理。
Cloud TPU v5e 可为各种 AI 工作负载(包括最新的 LLM 和生成式 AI 模型)实现高性能且经济高效的推理。与 Cloud TPU v4 相比,TPU v5e 可将性价比最多提高到 2.5 倍,并将速度最多提高到 1.7 倍。每个 TPU v5e 芯片每秒可提供高达 393 万亿次的 int8 运算,从而使复杂的模型进行快速预测。TPU v5e Pod 每秒可提供高达 10 亿亿次 int8 运算,即 100 petaOps 的计算能力。
利用 JetStream 和 MaxDiffusion 加快 AI 推理速度。JetStream 是专为大语言模型 (LLM) 推理设计的新推理引擎。JetStream 代表了我们在性能和成本效益上的重大飞跃,可在 Cloud TPU 上为 LLM 推理提供出色的吞吐量和延迟。MaxDiffusion 是一组针对 Cloud TPU 进行了优化的 diffusion 模型实现,让您可以轻松地在 Cloud TPU 上针对 diffusion 模型以高性能运行推理。
Cloud TPU v5e 可为各种 AI 工作负载(包括最新的 LLM 和生成式 AI 模型)实现高性能且经济高效的推理。与 Cloud TPU v4 相比,TPU v5e 可将性价比最多提高到 2.5 倍,并将速度最多提高到 1.7 倍。每个 TPU v5e 芯片每秒可提供高达 393 万亿次的 int8 运算,从而使复杂的模型进行快速预测。TPU v5e Pod 每秒可提供高达 10 亿亿次 int8 运算,即 100 petaOps 的计算能力。
强大的 AI/机器学习平台通常包含以下层:(i) 支持使用 GPU 大规模训练和服务工作负载的基础设施编排;(ii) 与分布式计算和数据处理框架灵活集成;(iii) 支持多个团队使用同一基础设施,以最大限度地提高资源利用率。
强大的 AI/机器学习平台通常包含以下层:(i) 支持使用 GPU 大规模训练和服务工作负载的基础设施编排;(ii) 与分布式计算和数据处理框架灵活集成;(iii) 支持多个团队使用同一基础设施,以最大限度地提高资源利用率。
对于希望以最简单的方式开发 AI 模型的客户,您可以使用 Vertex AI 部署 Cloud TPU v5e。Vertex AI 是一个端到端平台,用于在全代管式基础架构上构建 AI 模型,该基础架构专为低延迟服务和高性能训练而打造。
对于希望以最简单的方式开发 AI 模型的客户,您可以使用 Vertex AI 部署 Cloud TPU v5e。Vertex AI 是一个端到端平台,用于在全代管式基础架构上构建 AI 模型,该基础架构专为低延迟服务和高性能训练而打造。
价格
Cloud TPU 价格 | 所有 Cloud TPU 价格均按芯片小时数计算 | ||
---|---|---|---|
Cloud TPU 版本 | 评估价格(美元) | 1 年承诺(美元) | 3 年承诺(美元) |
Trillium | Starting at $2.7000 每芯片小时 | Starting at $1.8900 每芯片小时 | Starting at $1.2200 每芯片小时 |
Cloud TPU v5p | Starting at $4.2000 每芯片小时 | Starting at $2.9400 每芯片小时 | Starting at $1.8900 每芯片小时 |
Cloud TPU v5e | Starting at $1.2000 每芯片小时 | Starting at $0.8400 每芯片小时 | Starting at $0.5400 每芯片小时 |
Cloud TPU 价格因产品和区域而异。
Cloud TPU 价格
所有 Cloud TPU 价格均按芯片小时数计算
Trillium
Starting at
$2.7000
每芯片小时
Starting at
$1.8900
每芯片小时
Starting at
$1.2200
每芯片小时
Cloud TPU v5p
Starting at
$4.2000
每芯片小时
Starting at
$2.9400
每芯片小时
Starting at
$1.8900
每芯片小时
Cloud TPU v5e
Starting at
$1.2000
每芯片小时
Starting at
$0.8400
每芯片小时
Starting at
$0.5400
每芯片小时
Cloud TPU 价格因产品和区域而异。