總覽
TPU 是專為 AI 工作負載打造的特製加速器,適用於代理、程式碼生成、大型語言模型、媒體內容生成、合成語音、視覺服務、推薦引擎和個人化模型等。TPU 為 Gemini 和 Google 的所有 AI 輔助應用程式 (例如搜尋、相簿和地圖) 提供運算效能,這些應用程式為超過 10 億名使用者提供服務。
如要改用代理式 AI,基礎架構必須具備多步驟推論和持續強化學習的能力。TPU 8i 採用擴充的晶片上 SRAM,可將龐大的 KV 快取完全儲存在晶片上,打破推論的「記憶體牆」瓶頸。搭配 SparseCore 引擎卸載通訊工作,可減少核心閒置時間。因此能以低延遲提供可預測的效能,支援複雜的推論迴圈。
縮短前沿模型的訓練時間,加快部署速度。Cloud TPU 可盡量提高有效處理量,確保幾乎每個運算週期都用於主動學習。此外,還支援高速晶片間互連、全光交換器和 Virgo Network,確保加速器以高度可靠的整合系統運作。
TPU 專為滿足 AI 的運算需求而設計,可提升價值和降低耗電量,並消除多用途架構的營運負擔。整合式電源管理功能會根據即時要求量動態調整,提供高每瓦效能,並持續支援複雜的 AI 工作負載。
使用熟悉的程式庫和工具,在開放式生態系統中建構應用程式。Cloud TPU 原生支援 PyTorch 和 JAX,效能優異,並支援 vLLM 引擎,可快速執行推論。透過 Google Kubernetes Engine (GKE),在全域叢集中可靠地管理及擴充這些部署作業。
Cloud TPU 版本
| Cloud TPU 版本 | 說明 | 供應情形 |
|---|---|---|
TPU 8i | TPU 8i 經過最佳化調整,適合用於後續訓練和推論,且與前幾代產品相比,每美元的效能提升 80%,可為大型 MoE 模型提供低延遲推論。 | 即將推出 |
TPU 8t | TPU 8t 專為大規模預先訓練和嵌入密集型工作負載而打造,單一 Superpod 可容納 9,600 個晶片,與 Ironwood 相比,大規模訓練的效能成本比提升 2.7 倍。 | 即將推出 |
Ironwood | 第 7 代高效節能 TPU,專為大規模訓練、推理和推論作業打造。每個 Pod 搭載 9,216 個液冷晶片,提供 4,250 萬兆次浮點運算的能力,且每個晶片的效能是 Trillium 的 4 倍。 | Ironwood 現已於北美洲 (中部) 和歐洲 (西部) 正式發布 |
Trillium | 第 6 代 TPU 提升了能源效率,並提高訓練和推論運算的尖峰效能。與前一代 TPU v5e 相比,能源效率提升 67%,每個晶片的運算尖峰效能提高 4.7 倍。 | Trillium 現已正式發布,適用於北美洲 (美國東部)、歐洲 (西部) 和亞洲 (東北區域) |
其他 Cloud TPU 版本相關資訊請參閱這裡
TPU 8i
TPU 8i 經過最佳化調整,適合用於後續訓練和推論,且與前幾代產品相比,每美元的效能提升 80%,可為大型 MoE 模型提供低延遲推論。
即將推出
TPU 8t
TPU 8t 專為大規模預先訓練和嵌入密集型工作負載而打造,單一 Superpod 可容納 9,600 個晶片,與 Ironwood 相比,大規模訓練的效能成本比提升 2.7 倍。
即將推出
Ironwood
第 7 代高效節能 TPU,專為大規模訓練、推理和推論作業打造。每個 Pod 搭載 9,216 個液冷晶片,提供 4,250 萬兆次浮點運算的能力,且每個晶片的效能是 Trillium 的 4 倍。
Ironwood 現已於北美洲 (中部) 和歐洲 (西部) 正式發布
Trillium
第 6 代 TPU 提升了能源效率,並提高訓練和推論運算的尖峰效能。與前一代 TPU v5e 相比,能源效率提升 67%,每個晶片的運算尖峰效能提高 4.7 倍。
Trillium 現已正式發布,適用於北美洲 (美國東部)、歐洲 (西部) 和亞洲 (東北區域)
其他 Cloud TPU 版本相關資訊請參閱這裡
縮短大型基礎模型的預先訓練時間。TPU 8t 可在單一 Pod 中提供高效能運算能力,並透過 Virgo Network 擴充。這項架構結合快速儲存空間存取功能和 Axion 支援的 NUMA 隔離技術,可提高有效處理量,確保運算週期用於建構有效模型,而不是在資料移轉或硬體重設期間閒置。
縮短大型基礎模型的預先訓練時間。TPU 8t 可在單一 Pod 中提供高效能運算能力,並透過 Virgo Network 擴充。這項架構結合快速儲存空間存取功能和 Axion 支援的 NUMA 隔離技術,可提高有效處理量,確保運算週期用於建構有效模型,而不是在資料移轉或硬體重設期間閒置。
透過密集的後續訓練工作流程,將基礎模型建構為智慧型代理程式。第 8 代 TPU 系統能快速處理持續強化學習試驗,獎勵最佳推論路徑,不會像前幾代產品一樣出現週期延遲。這項技術可讓您有效微調世界模型,讓代理程式在模擬環境中修正推論方式,再於現實世界中執行。
透過密集的後續訓練工作流程,將基礎模型建構為智慧型代理程式。第 8 代 TPU 系統能快速處理持續強化學習試驗,獎勵最佳推論路徑,不會像前幾代產品一樣出現週期延遲。這項技術可讓您有效微調世界模型,讓代理程式在模擬環境中修正推論方式,再於現實世界中執行。
打破推論的記憶體牆瓶頸。TPU 8i 擴充了晶片內建 SRAM 和高頻寬記憶體,可將高容量的 KV 快取完全儲存在晶片上。這項架構使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 卸載全域通訊工作,大幅降低晶片延遲,讓主要運算核心專注於生成純正低延遲的符記。
打破推論的記憶體牆瓶頸。TPU 8i 擴充了晶片內建 SRAM 和高頻寬記憶體,可將高容量的 KV 快取完全儲存在晶片上。這項架構使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 卸載全域通訊工作,大幅降低晶片延遲,讓主要運算核心專注於生成純正低延遲的符記。
企業案例
自主推論代理
TPU 提供記憶體頻寬和低延遲推論功能,可執行連續多步驟的推論迴圈,適用於即時程式碼輔助工具、自動化客戶服務和資安營運。
基礎模型和多模態生成式 AI
TPU 可持續提供高輸送量的運算資源,有效率地建構及提供龐大的基礎模型,支援文字、圖像、音訊和影片等模態。
精準科學與醫療照護
TPU 可處理複雜的矩陣運算,加速結構生物學、基因體定序和藥物研發的運算密集型模擬作業。
實體 AI
打造能與現實世界互動並適應環境的實體代理。運用合成資料和真實資料,更快速有效地模擬及訓練機器人、自動化代理和工業機器。