Google Cloud 推出了世界上最大的公开可用的机器学习中心,采用 Cloud TPU v4 且无碳能源占比高达 90%。了解详情

Cloud TPU

以前所未有的速度训练和运行机器学习模型。

视频内容说明。

利用 Google Cloud AI 为企业助力

从加强网络安全到提高医疗诊断准确性,机器学习技术为多方面的业务和研究领域带来了突破。为了让所有人都能够实现类似突破,我们打造了张量处理单元 (TPU)。Cloud TPU 是 Google 专为机器学习打造的 ASIC,广泛应用于翻译、相册、搜索、Google 助理和 Gmail 等诸多 Google 产品。本文介绍了如何运用 TPU 和机器学习技术助力您的企业加速取得成功(特别是在大规模运用的情况下)。
Cloud AI TPU 基础架构图片。

专为 Google Cloud 上的人工智能应用而打造

Cloud TPU 的设计目标就是利用 Google Cloud 上的 AI 服务运行最先进的机器学习模型,其自定义高速网络可在单个 Pod 中提供超过每秒 100 千万亿次浮点运算的性能。它的强大计算能力,足以帮助您实现业务转型或在研究上取得新突破。

快速迭代图片

更快地迭代您的机器学习解决方案

训练机器学习模型就像编译代码一样:您需要经常进行更新,并且尽可能高效地完成更新。机器学习模型需要随着应用的构建、部署和优化而反复训练。Cloud TPU 性能强大而费用低廉,是希望快速、频繁地进行解决方案迭代的机器学习团队的理想之选。

久经考验的先进模型

您可以针对许多实际使用场景打造自己的机器学习驱动型解决方案。只需提供您的数据、下载经过 Google 优化的参考模型并进行训练即可。

客户和合作伙伴

“在 Cohere,我们构建先进的自然语言处理 (NLP) 服务,包括语言生成、分类和搜索 API。这些工具基于一组语言模型构建而成,Cohere 使用 JAX 在 Cloud TPU 上从头开始训练这些模型。从 Cloud TPU v3 Pod 迁移到 Cloud TPU v4 Pod 时,我们最大模型的训练时间缩短了 70%,从而为我们的研究人员提供了更快的迭代速度,并为我们的客户提供了更高质量的结果。对我们来说,Cloud TPU v4 Pod 的碳足迹特别低,这一点同样重要。”

Aidan Gomez,首席执行官兼联合创始人

LG AI Research 徽标

“LG AI Research 作为战略研究合作伙伴,参与了 Google 最新机器学习超级计算机 TPU v4 商业化前的测试,以训练拥有 3000 亿参数规模的超级巨无霸 AI - LG EXAONE。配备多模态能力的 LG EXAONE 一直在使用 TPU v4 和海量数据、超过 6000 亿个文本语料库和 2.5 亿张图片进行训练,力图在沟通、生产力、创造力等方面超越人类专家。TPU v4 的性能不仅优于其他一流的计算架构,而且以客户为中心的支持超出了我们的预期。我们很高兴与 Google 合作,并希望巩固战略合作伙伴关系,以实现我们的终极愿景,推进 AI 以改善生活。”

LG AI Research 总监 Kyunghoon Bae 博士

Salesforce 徽标

“抢先体验 TPU v4 使我们能够通过我们的 CodeGen 项目实现对话式 AI 编程的突破,该项目是一个包含 160 亿参数的自动回归语言模型,可将简单的英语提示转换为可执行代码。该模型的大型规模是由经验观察推动的,即按训练样本的数量比例缩放模型参数的数量似乎大幅度提高了模型的性能。这种现象称为扩缩法则。TPU v4 是此类横向扩容机器学习训练的优秀平台,与其他类似的 AI 硬件替代品相比,它具备显著的性能优势。”

Salesforce 的研究科学家 Erik Nijkamp

IDC 徽标

“根据对 2000 个 IT 决策者进行的近期调查,我们发现基础架构能力不足通常是 AI 项目失败的根本原因。为了满足企业专用的 AI 基础架构日益增长的重要需要,Google 在俄克拉荷马州发布了新的机器学习集群,每秒可进行九百亿亿次聚合计算。我们相信这是最大的公开机器学习中心,其中 90% 的运营都由无碳能源提供支持。这表明 Google 持续致力于 AI 基础架构创新,并兼顾可持续发展。”

Matt Eastwood,IDC 高级副总裁,负责企业基础架构、云、电信、安全、开发者、渠道和赋能技术

特性

模型库

您可以立即开始使用我们不断扩充的 Cloud TPU 优化模型库。这些模型在图片分类、对象检测、语言建模、语音识别等方面提供了经过优化的性能、准确性和质量。

将 Cloud TPU 与自定义机器类型关联

您可以从自定义 Deep Learning VM Image 映像类型连接到 Cloud TPU,这有助于根据具体工作负载以最优方式均衡处理器速度、内存和高性能存储资源。

与 Google Cloud 全面集成

Cloud TPU 和 Google Cloud 的数据和分析服务与其他 Google Cloud 产品/服务完全集成,例如Google Kubernetes Engine (GKE)。因此,当您在 Cloud TPU 上运行机器学习工作负载时,可充分利用 Google Cloud 行业领先的存储网络数据分析技术优势。

抢占式 Cloud TPU

您可以为容错式机器学习工作负载(例如,设有检查点且长时间运行的训练,或者基于大型数据集的批量预测)使用抢占式 Cloud TPU,从而节省资金。抢占式 Cloud TPU 的价格比按需实例低 70%,这使得从初期实验到大规模超参数搜索的所有工作成本都比以往更加低廉。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

不知从何入手,需要一点帮助?
与值得信赖的合作伙伴携手

更进一步

开始您的下一个项目,尝试交互式教程并管理您的帐号。

不知从何入手,需要一点帮助?
与值得信赖的合作伙伴携手
了解提示和最佳实践

Cloud AI 产品遵循 Google Cloud SLA 政策。这些产品在延迟时间或可用性方面的保证可能与其他 Google Cloud 服务有所不同。