可伸缩、性能出色且经济实惠的基础架构,适合所有 AI 工作负载。
AI 加速器适用于从高性能训练到低成本推断的各种使用场景
在 Google Kubernetes Engine 或 Google Compute Engine 上使用 GPU 和 TPU 实现快速扩缩
适用于 Vertex AI、Google Kubernetes Engine 和 Cloud HPC Toolkit 的可部署解决方案
通过部署 AI Hypercomputer 架构,充分利用我们的 AI Infrastructure
优势
在 Google Cloud 中,您可以从 GPU、TPU 或 CPU 中进行选择,以支持各种应用场景,包括高性能训练、低成本推断和大规模数据处理。
利用 Vertex AI 提供的代管式基础架构,更快、更高效地进行扩缩。快速设置机器学习环境,自动执行编排,管理大型集群并设置低延迟应用。
利用 GKE 管理大规模工作负载,从而提高 AI 开发效率。训练和部署基础模型,并获享自动扩缩、工作负载编排和自动升级功能方面的支持。
主要特性
过去,使用 Cloud TPU 和 Cloud GPU 编排大型 AI 工作负载需要手动处理故障、日志记录、监控和其他基础运维工作。Google Kubernetes Engine (GKE) 是伸缩能力极强的全代管式 Kubernetes 服务,可大大简化运维 TPU 和 GPU 所需的工作。利用 GKE 管理 Cloud TPU 和 Cloud GPU 上的大规模 AI 工作负载编排可以提高 AI 开发效率。
对于喜欢通过代管式服务来摆脱基础架构的组织,Vertex AI 现在支持使用 Cloud TPU 和 Cloud GPU 通过各种框架和库进行训练。
我们构建了经 AI 优化的基础架构,以覆盖全球的扩缩能力和出色性能,支撑起服务数十亿用户的 Google 产品(如 YouTube、Gmail、Google 地图、Google Play 和 Android)。 我们的 AI 基础架构解决方案均以 Google Cloud 的 Jupiter 数据中心网络为依托。从基础服务的出色横向扩容能力到高强度 AI 工作负载,均能有力支持。
几十年来,我们一直在为 TensorFlow 和 JAX 等关键的 AI 项目贡献力量。 我们创立了 PyTorch Foundation,并于最近宣布成立了一个新的行业联盟:OpenXLA 项目。此外,Google 还是领先的 CNCF 开源贡献者,有 20 多年的 OSS 贡献历史(例如 TFX、MLIR、OpenXLA、KubeFlow 和 Kubernetes);并赞助了对数据科学社区至关重要的 OSS 项目,例如 Jupyter 项目和 NumFOCverteUS。
此外,我们的 AI 基础架构服务嵌入了最热门的 AI 框架(如 TensorFlow、PyTorch 和 MXNet),客户可以继续使用他们喜欢的任何框架,不受限于特定框架/或硬件架构。
客户
随着 AI 为各行各业打开创新大门,众多公司纷纷选择 Google Cloud,以充分利用我们开放、灵活且高性能的基础架构。
最新资讯
文档
使用场景
Cloud TPU Multislice 训练是一种全栈技术,让您可以在数以万计的 TPU 芯片上快速、轻松、可靠地进行大规模 AI 模型训练。
Google Cloud 的开放软件生态系统让您可以使用自己最熟悉的工具和框架构建应用,同时充分利用 AI Hypercomputer 架构的性价比优势。
Cloud TPU v5e 和 NVIDIA L4 GPU 可针对各种 AI 工作负载(包括最新的 LLM 和生成式 AI 模型)实现高性能且具有成本效益的推理。与以前的模型相比,两者的性价比都得到了显著提升,并且 Google Cloud 的 AI Hypercomputer 架构能够让客户将部署规模扩展到行业领先的水平。
Cloud AI 产品遵循我们的服务等级协议 (SLA) 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。