AI Hypercomputer 是支撐 Google Cloud 上所有 AI 工作負載的整合式超級運算系統,由軟硬體和使用模式組成,可簡化 AI 部署作業、提升系統層級效率,並提高成本效益。
總覽
您可以根據工作負載層級的目標,選擇最合適的運算、儲存空間和網路選項。無論是提高處理量、縮短延遲時間、更快取得結果,還是降低 TCO,AI Hypercomputer 都能助您輕鬆達成。進一步瞭解 Google Cloud TPU、Google Cloud GPU,以及最新的儲存空間和網路服務。
我們提供領先業界的軟體,並整合開放框架、程式庫和編譯器,讓您的硬體進一步發揮效能,以更高效率開發、整合及管理 AI。
我們提供彈性付費方案,客戶可依業務需求,選擇固定費用、承諾使用折扣或動態隨選模式。客戶還可透過 Dynamic Workload Scheduler和 Spot VM 取用所需容量,避免分配過多資源。此外,客戶可使用 Google Cloud 的成本最佳化工具來自動調度資源。這樣不僅能提高資源使用率,也能減少工程師的手動作業。
常見用途
訓練工作負載必須以高度同步的工作形式,在緊耦合叢集中的數千個節點上執行。只要一個節點的效能降低,就可能中斷整個工作,進而拖慢推出速度。因此必須:
我們希望客戶能以相當簡便的方式,在 Google Cloud 部署訓練工作負載並調度相關資源。
歡迎參閱下列任一教學課程,掌握建立 AI 叢集的入門要領:
「我們需要 GPU 生成對使用者訊息的回應。隨著平台使用者越來越多,我們也需要更多 GPU 來提供服務。透過 Google Cloud,我們可以進行實驗並找出適合特定工作負載的平台。這些解決方案讓我們能夠更靈活地選擇最有價值的解決方案。」Character.AI 創始工程師 Myle Ott
歡迎參閱下列任一教學課程,掌握建立 AI 叢集的入門要領:
「我們需要 GPU 生成對使用者訊息的回應。隨著平台使用者越來越多,我們也需要更多 GPU 來提供服務。透過 Google Cloud,我們可以進行實驗並找出適合特定工作負載的平台。這些解決方案讓我們能夠更靈活地選擇最有價值的解決方案。」Character.AI 創始工程師 Myle Ott
Google Cloud 提供內含常見作業系統、框架、程式庫和驅動程式的映像檔。AI Hypercomputer 會將這些預先設定的映像檔最佳化,來支援 AI 工作負載。
與 Google Cloud 合作導入生成式 AI 後,我們用聊天機器人就能提供個人化旅遊規劃服務。我們的目標不只是為顧客安排行程,更是協助他們打造獨一無二的旅遊體驗。」Martin Brodbeck,Priceline 技術長
Google Cloud 提供內含常見作業系統、框架、程式庫和驅動程式的映像檔。AI Hypercomputer 會將這些預先設定的映像檔最佳化,來支援 AI 工作負載。
與 Google Cloud 合作導入生成式 AI 後,我們用聊天機器人就能提供個人化旅遊規劃服務。我們的目標不只是為顧客安排行程,更是協助他們打造獨一無二的旅遊體驗。」Martin Brodbeck,Priceline 技術長
推論技術正快速發展,變得更多元繁複。這項技術主要有三個發展方向:
「我們的實驗結果顯示,Cloud TPU v5e 是最符合成本效益的加速器,可針對模型執行大規模推論。每一美元的效能比 G2 高出 2.7 倍,比 A2 執行個體高出 4.2 倍。」Domenic Donato
AssemblyAI 技術副總裁
推論技術正快速發展,變得更多元繁複。這項技術主要有三個發展方向:
「我們的實驗結果顯示,Cloud TPU v5e 是最符合成本效益的加速器,可針對模型執行大規模推論。每一美元的效能比 G2 高出 2.7 倍,比 A2 執行個體高出 4.2 倍。」Domenic Donato
AssemblyAI 技術副總裁
常見問題
對大多數客戶來說,使用代管 AI 平台是最簡單的 AI 入門方式。以 Vertex AI 為例,這個平台不僅內建所有工具、範本和模型,還採用 AI Hypercomputer,可代為進行最佳化調整。Vertex AI 容易上手,讓您輕鬆開始使用 AI。如果您想自行設定及調整每個基礎架構元件,可以使用 AI Hypercomputer 元件做為基礎架構,並根據需求組合。
每種雲端服務的功能不同,相較之下,AI Hypercomputer 屬於整合式系統,軟硬體和使用模式都經過精心設計,能以最佳方式搭配運作,從系統層級有效提升效能、成本效益和上市速度,這點是無法透過拼湊不同服務來達成。這種整合式系統不僅能簡化作業,還提供全方位的 AI 基礎架構做法。
是,AI Hypercomputer 將彈性融入設計考量。您可以透過 Cross-Cloud Interconnect 等技術建立高頻寬連線,連至地端部署資料中心和其他雲端,落實混合雲和多雲端 AI 策略。我們採用開放標準,並整合熱門的第三方軟體,讓您能建構支援多個環境的解決方案,以及依需求調整服務。
安全性是 AI Hypercomputer 的核心面向。這個架構採用 Google Cloud 的多層式安全防護模型。具體功能包括 Titan 安全微控制器 (確保系統以可信任的狀態啟動)、RDMA 防火牆 (訓練時可於 TPU/GPU 之間建立零信任網路),且與 Model Armor 等 AI 安全性解決方案整合。此外,我們還制定完善的基礎架構安全防護政策和原則做為輔助,例如安全 AI 架構。
否。AI Hypercomputer 可用於任何規模的工作負載。即使是小型工作負載,也能充分利用這個整合式系統的所有優勢,例如提升效率及簡化部署作業。此外,AI Hypercomputer 還能支援客戶擴展業務,無論是小型概念驗證和實驗,或大規模正式環境部署作業,都不成問題。
是,我們正在 GitHub 規劃一系列做法。您也可以使用 Cluster Toolkit,取得預先建構的叢集藍圖。
AI 技術最佳化硬體
儲存空間
網路
運算:Google Cloud TPU (Trillium)、NVIDIA GPU (Blackwell),以及 Google 開發的 CPU (Axion),可根據特定工作的處理量、延遲時間或總持有成本要求,進行最佳化。
先進軟體和開放框架
使用模式: