閱讀文章：Inside the 8th-generation TPU: An architecture deep dive (第 8 代 TPU 內部：架構深入探索)

Tensor Processing Unit (TPU)

專為新一代 AI 技術打造

建構、最佳化及擴充訓練、推論和強化學習工作負載，打造自主推理代理程式

總覽

Tensor Processing Unit (TPU) 十年成就

TPU 是專為 AI 工作負載打造的特製加速器，適用於代理、程式碼生成、大型語言模型、媒體內容生成、合成語音、視覺服務、推薦引擎和個人化模型等。TPU 為 Gemini 和 Google 的所有 AI 輔助應用程式 (例如搜尋、相簿和地圖) 提供運算效能，這些應用程式為超過 10 億名使用者提供服務。

專為代理式 AI 打造

如要改用代理式 AI，基礎架構必須具備多步驟推論和持續強化學習的能力。TPU 8i 採用擴充的晶片上 SRAM，可將龐大的 KV 快取完全儲存在晶片上，打破推論的「記憶體牆」瓶頸。搭配 SparseCore 引擎卸載通訊工作，可減少核心閒置時間。因此能以低延遲提供可預測的效能，支援複雜的推論迴圈。

效能無須妥協

縮短前沿模型的訓練時間，加快部署速度。Cloud TPU 可盡量提高有效處理量，確保幾乎每個運算週期都用於主動學習。此外，還支援高速晶片間互連、全光交換器和 Virgo Network，確保加速器以高度可靠的整合系統運作。

大規模永續經濟

TPU 專為滿足 AI 的運算需求而設計，可提升價值和降低耗電量，並消除多用途架構的營運負擔。整合式電源管理功能會根據即時要求量動態調整，提供高每瓦效能，並持續支援複雜的 AI 工作負載。

開放、彈性且可靠的作業

使用熟悉的程式庫和工具，在開放式生態系統中建構應用程式。Cloud TPU 原生支援 PyTorch 和 JAX，效能優異，並支援 vLLM 引擎，可快速執行推論。透過 Google Kubernetes Engine (GKE)，在全域叢集中可靠地管理及擴充這些部署作業。

Cloud TPU 版本

Cloud TPU 版本	說明	供應情形
TPU 8i	TPU 8i 經過最佳化調整，適合用於後續訓練和推論，且與前幾代產品相比，每美元的效能提升 80%，可為大型 MoE 模型提供低延遲推論。	即將推出
TPU 8t	TPU 8t 專為大規模預先訓練和嵌入密集型工作負載而打造，單一 Superpod 可容納 9,600 個晶片，與 Ironwood 相比，大規模訓練的效能成本比提升 2.7 倍。	即將推出
Ironwood	第 7 代高效節能 TPU，專為大規模訓練、推理和推論作業打造。每個 Pod 搭載 9,216 個液冷晶片，提供 4,250 萬兆次浮點運算的能力，且每個晶片的效能是 Trillium 的 4 倍。	Ironwood 現已於北美洲 (中部) 和歐洲 (西部) 正式發布
Trillium	第 6 代 TPU 提升了能源效率，並提高訓練和推論運算的尖峰效能。與前一代 TPU v5e 相比，能源效率提升 67%，每個晶片的運算尖峰效能提高 4.7 倍。	Trillium 現已正式發布，適用於北美洲 (美國東部)、歐洲 (西部) 和亞洲 (東北區域)

其他 Cloud TPU 版本相關資訊請參閱這裡

TPU 8i

說明

TPU 8i 經過最佳化調整，適合用於後續訓練和推論，且與前幾代產品相比，每美元的效能提升 80%，可為大型 MoE 模型提供低延遲推論。

供應情形

即將推出

TPU 8t

說明

TPU 8t 專為大規模預先訓練和嵌入密集型工作負載而打造，單一 Superpod 可容納 9,600 個晶片，與 Ironwood 相比，大規模訓練的效能成本比提升 2.7 倍。

供應情形

即將推出

Ironwood

說明

第 7 代高效節能 TPU，專為大規模訓練、推理和推論作業打造。每個 Pod 搭載 9,216 個液冷晶片，提供 4,250 萬兆次浮點運算的能力，且每個晶片的效能是 Trillium 的 4 倍。

供應情形

Ironwood 現已於北美洲 (中部) 和歐洲 (西部) 正式發布

Trillium

說明

第 6 代 TPU 提升了能源效率，並提高訓練和推論運算的尖峰效能。與前一代 TPU v5e 相比，能源效率提升 67%，每個晶片的運算尖峰效能提高 4.7 倍。

供應情形

Trillium 現已正式發布，適用於北美洲 (美國東部)、歐洲 (西部) 和亞洲 (東北區域)

其他 Cloud TPU 版本相關資訊請參閱這裡

運作方式

深入瞭解 Google Cloud TPU 的特點，包括難得一見的資料中心內部景象。客戶往往會選用 Cloud TPU 執行部分大規模 AI 工作負載，而這類 TPU 之所以具備這項能力，依靠的不只是晶片。在這部影片中，您將瞭解 TPU 系統的元件，包括資料中心網路、光學電路交換器、水冷卻系統、生物特徵辨識安全性驗證機制等。

常見用途

執行大規模 AI 預先訓練工作負載

加快前沿模型的上市速度

縮短大型基礎模型的預先訓練時間。TPU 8t 可在單一 Pod 中提供高效能運算能力，並透過 Virgo Network 擴充。這項架構結合快速儲存空間存取功能和 Axion 支援的 NUMA 隔離技術，可提高有效處理量，確保運算週期用於建構有效模型，而不是在資料移轉或硬體重設期間閒置。

其他資源

加快前沿模型的上市速度

縮短大型基礎模型的預先訓練時間。TPU 8t 可在單一 Pod 中提供高效能運算能力，並透過 Virgo Network 擴充。這項架構結合快速儲存空間存取功能和 Axion 支援的 NUMA 隔離技術，可提高有效處理量，確保運算週期用於建構有效模型，而不是在資料移轉或硬體重設期間閒置。

有效率的後訓練和強化學習

有效率地擴充強化學習工作負載

透過密集的後續訓練工作流程，將基礎模型建構為智慧型代理程式。第 8 代 TPU 系統能快速處理持續強化學習試驗，獎勵最佳推論路徑，不會像前幾代產品一樣出現週期延遲。這項技術可讓您有效微調世界模型，讓代理程式在模擬環境中修正推論方式，再於現實世界中執行。

其他資源

有效率地擴充強化學習工作負載

透過密集的後續訓練工作流程，將基礎模型建構為智慧型代理程式。第 8 代 TPU 系統能快速處理持續強化學習試驗，獎勵最佳推論路徑，不會像前幾代產品一樣出現週期延遲。這項技術可讓您有效微調世界模型，讓代理程式在模擬環境中修正推論方式，再於現實世界中執行。

大規模執行低延遲 AI 推論工作負載

高效能且符合成本效益的推論

打破推論的記憶體牆瓶頸。TPU 8i 擴充了晶片內建 SRAM 和高頻寬記憶體，可將高容量的 KV 快取完全儲存在晶片上。這項架構使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 卸載全域通訊工作，大幅降低晶片延遲，讓主要運算核心專注於生成純正低延遲的符記。

其他資源

高效能且符合成本效益的推論

打破推論的記憶體牆瓶頸。TPU 8i 擴充了晶片內建 SRAM 和高頻寬記憶體，可將高容量的 KV 快取完全儲存在晶片上。這項架構使用 SparseCore-Collectives Acceleration Engine (SC-CAE) 卸載全域通訊工作，大幅降低晶片延遲，讓主要運算核心專注於生成純正低延遲的符記。

開始驗證概念

免費試用 Cloud TPU

快速瞭解如何使用 Cloud TPU

在 TPU 執行 PyTorch

在 TPU 上執行 JAX

在 TPU 上使用 vLLM 提供服務

企業案例

自主推論代理

TPU 提供記憶體頻寬和低延遲推論功能，可執行連續多步驟的推論迴圈，適用於即時程式碼輔助工具、自動化客戶服務和資安營運。

基礎模型和多模態生成式 AI

⁠TPU 可持續提供高輸送量的運算資源，有效率地建構及提供龐大的基礎模型，支援文字、圖像、音訊和影片等模態。

精準科學與醫療照護

TPU 可處理複雜的矩陣運算，加速結構生物學、基因體定序和藥物研發的運算密集型模擬作業。

實體 AI

打造能與現實世界互動並適應環境的實體代理。運用合成資料和真實資料，更快速有效地模擬及訓練機器人、自動化代理和工業機器。

Tensor Processing Unit (TPU)

專為新一代 AI 技術打造

產品亮點

Tensor Processing Unit (TPU) 十年成就

專為代理式 AI 打造

效能無須妥協

大規模永續經濟

開放、彈性且可靠的作業

執行大規模 AI 預先訓練工作負載

加快前沿模型的上市速度

其他資源

加快前沿模型的上市速度

有效率的後訓練和強化學習

有效率地擴充強化學習工作負載

其他資源

有效率地擴充強化學習工作負載

大規模執行低延遲 AI 推論工作負載

高效能且符合成本效益的推論

其他資源

高效能且符合成本效益的推論

開始驗證概念

免費試用 Cloud TPU

快速瞭解如何使用 Cloud TPU

在 TPU 執行 PyTorch

在 TPU 上執行 JAX

在 TPU 上使用 vLLM 提供服務

相關內容