AI Hypercomputer 是支撐 Google Cloud 上所有 AI 工作負載的整合式超級運算系統,由軟硬體和使用模式組成,可簡化 AI 部署作業、提升系統層級效率,並提高成本效益。
總覽
我們提供領先業界的軟體,並整合開放框架、程式庫和編譯器,讓您的硬體進一步發揮效能,以更高效率開發、整合及管理 AI。
我們提供彈性付費方案,客戶可依業務需求,選擇固定費用、承諾使用折扣或動態隨選模式。客戶還可透過 Dynamic Workload Scheduler和 Spot VM 取用所需容量,避免分配過多資源。此外,客戶可使用 Google Cloud 的成本最佳化工具來自動調度資源。這樣不僅能提高資源使用率,也能減少工程師的手動作業。
常見用途
推論技術正快速發展,變得更多元繁複。這項技術主要有三個發展方向:
PUMA 與 Google Cloud 合作,採用整合式 AI 基礎架構 (AI Hypercomputer),搭配 Gemini 和 Dynamic Workload Scheduler,根據使用者提示詞,動態調整 GPU 推論規模,大幅降低成本和生成時間。
影響:
推論技術正快速發展,變得更多元繁複。這項技術主要有三個發展方向:
PUMA 與 Google Cloud 合作,採用整合式 AI 基礎架構 (AI Hypercomputer),搭配 Gemini 和 Dynamic Workload Scheduler,根據使用者提示詞,動態調整 GPU 推論規模,大幅降低成本和生成時間。
影響:
訓練工作負載必須以高度同步的工作形式,在緊耦合叢集中的數千個節點上執行。只要一個節點的效能降低,就可能中斷整個工作,進而拖慢推出速度。因此必須:
我們希望客戶能以相當簡便的方式,在 Google Cloud 部署訓練工作負載並調度相關資源。
歡迎參閱下列任一教學課程,掌握建立 AI 叢集的入門要領:
Moloco 採用 AI Hypercomputer 完全整合的堆疊,在 TPU 和 GPU 等進階硬體上自動擴充,讓 Moloco 工程師能專注於其他工作。此外,並與 Google 業界領先的資料平台整合,為 AI 工作負載打造出端對端的一致系統。
Moloco 推出首批深度學習模型後,業績和獲利呈現曲棍球桿型成長,在 2 年半內成長 5 倍,達到目標。
歡迎參閱下列任一教學課程,掌握建立 AI 叢集的入門要領:
Moloco 採用 AI Hypercomputer 完全整合的堆疊,在 TPU 和 GPU 等進階硬體上自動擴充,讓 Moloco 工程師能專注於其他工作。此外,並與 Google 業界領先的資料平台整合,為 AI 工作負載打造出端對端的一致系統。
Moloco 推出首批深度學習模型後,業績和獲利呈現曲棍球桿型成長,在 2 年半內成長 5 倍,達到目標。
Google Cloud 提供內含常見作業系統、框架、程式庫和驅動程式的映像檔。AI Hypercomputer 會將這些預先設定的映像檔最佳化,來支援 AI 工作負載。
與 Google Cloud 合作導入生成式 AI 後,我們用聊天機器人就能提供個人化旅遊規劃服務。我們的目標不只是為顧客安排行程,更是協助他們打造獨一無二的旅遊體驗。」Martin Brodbeck,Priceline 技術長
Google Cloud 提供內含常見作業系統、框架、程式庫和驅動程式的映像檔。AI Hypercomputer 會將這些預先設定的映像檔最佳化,來支援 AI 工作負載。
與 Google Cloud 合作導入生成式 AI 後,我們用聊天機器人就能提供個人化旅遊規劃服務。我們的目標不只是為顧客安排行程,更是協助他們打造獨一無二的旅遊體驗。」Martin Brodbeck,Priceline 技術長
常見問題
每種雲端服務的功能不同,相較之下,AI Hypercomputer 屬於整合式系統,軟硬體和使用模式都經過精心設計,能以最佳方式搭配運作,從系統層級有效提升效能、成本效益和上市速度,這點是無法透過拼湊不同服務來達成。這種整合式系統不僅能簡化作業,還提供全方位的 AI 基礎架構做法。
是,AI Hypercomputer 將彈性融入設計考量。您可以透過 Cross-Cloud Interconnect 等技術建立高頻寬連線,連至地端部署資料中心和其他雲端,落實混合雲和多雲端 AI 策略。我們採用開放標準,並整合熱門的第三方軟體,讓您能建構支援多個環境的解決方案,以及依需求調整服務。
安全性是 AI Hypercomputer 的核心面向。這個架構採用 Google Cloud 的多層式安全防護模型。具體功能包括 Titan 安全微控制器 (確保系統以可信任的狀態啟動)、RDMA 防火牆 (訓練時可於 TPU/GPU 之間建立零信任網路),且與 Model Armor 等 AI 安全性解決方案整合。此外,我們還制定完善的基礎架構安全防護政策和原則做為輔助,例如安全 AI 架構。
否。AI Hypercomputer 可用於任何規模的工作負載。即使是小型工作負載,也能充分利用這個整合式系統的所有優勢,例如提升效率及簡化部署作業。此外,AI Hypercomputer 還能支援客戶擴展業務,無論是小型概念驗證和實驗,或大規模正式環境部署作業,都不成問題。
對大多數客戶來說,使用代管 AI 平台是最簡單的 AI 入門方式。以 Vertex AI 為例,這個平台不僅內建所有工具、範本和模型,還採用 AI Hypercomputer,可代為進行最佳化調整。Vertex AI 容易上手,讓您輕鬆開始使用 AI。如果您想自行設定及調整每個基礎架構元件,可以使用 AI Hypercomputer 元件做為基礎架構,並根據需求組合。
是,我們正在 GitHub 規劃一系列做法。您也可以使用 Cluster Toolkit,取得預先建構的叢集藍圖。
AI 技術最佳化硬體
儲存空間
網路
運算:Google Cloud TPU (Trillium)、NVIDIA GPU (Blackwell),以及 Google 開發的 CPU (Axion),可根據特定工作的處理量、延遲時間或總持有成本要求,進行最佳化。
先進軟體和開放框架
使用模式: