インテリジェント クラウドに持続可能なシリコンを: コンピューティングの未来に向けたコラボレーション
Parthasarathy Ranganathan
VP & Technical Fellow
Amber Huffman
Principal Engineer, Google
※この投稿は米国時間 2024 年 10 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
編集者注: 今回は、Google バイス プレジデント兼テクニカル フェローの Parthasarathy Ranganathan と、プリンシパル エンジニアの Amber Huffman から話を聞きます。Partha は本日、オープン ハードウェア業界のリーダー、研究者、先駆者のための年次会議である 2024 OCP Global Summit で基調講演を行いました。Amber は、Open Compute Project(OCP)の理事を務めています。ハイパースケール コンピューティングの過去と未来、および OCP コミュニティにおけるすべての活動の概要を以下にご紹介します。
ハイパースケール コンピューティングという刺激的な時代において、AI / ML コンピューティングの基盤をクラウドで構築する新たなイノベーションの波が起こっています。ハイパースケール コンピューティングの分野で 25 年にわたる豊かな歴史を築いてきた Google は、ハードウェアとソフトウェアのスタック、分野、コミュニティを横断する共同設計とコラボレーションが、この刺激的な新しい未来の鍵となることを見据えています。
小さな始まりから社会インフラへ
Google が創設された 1998 年の時点で、ウェブ検索の成功には膨大な計算能力とストレージが必要であることは明らかでした。そこで、検索に特化した最初のハイパースケール コンピュータが設計されたのです。その場しのぎの初期のシステムは、「Corkboard」サーバーや Walmart で購入した既成のファンなど、独創的なコスト削減アプローチを採用しており、ハードウェアおよびソフトウェアの共同設計と、ワークロード固有の専門化という、今日でも採用されている原則の基礎を築きました。
Google は、これらの初期システムを基盤として、その後の 10 年間で最新のハイパースケール コンピューティングの基礎を築き、カスタム サーバー、カスタム ネットワーキング、カスタム データセンターの先駆者として、検索から Gmail、YouTube、Android へとサービスを拡張しました。そして、これらすべてが最新のマルチワークロード クラウドにつながっています。その間には、Borg、Colossus、MapReduce、Bigtable などの重要なシステム ソフトウェアも開発しました。その後数年間は、セキュリティ、信頼性、電力効率を優先しながら、これらのシステムのスケーリングを重点的に進めました。2011 年の Open Compute Project(OCP)の設立とともに、ハイパースケール コンピューティングの位置付けはニッチな分野からより主流の分野へと変化しました。ここ 10 年のハイパースケール コンピューティングの特徴として挙げられるのが、ムーアの法則の減速に逆らうイノベーション、すなわち ML や動画処理をサポートする専用ハードウェアと、異種性を管理するためのソフトウェア定義サーバーです。
現在、ハイパースケール コンピューティングは確固たる地位を確立し、クラウドと AI のワークロードを推進する重要な社会インフラへと進化しています。
分野をまたいだ共同設計: イノベーションの中心
過去 25 年間の Google によるすべてのイノベーションで一貫していた 1 つのテーマが、分野を横断するシステム イノベーションと共同設計への確固たるコミットメントです。AI 時代を見据える Google は、引き続き「基盤からクラウドまで」(データセンターを構築する土台からより広範なクラウド コンピューティング サービスまで)および「チップから出荷まで」(ハードウェアの設計からデプロイと本番環境での使用まで)の総合的なアプローチを採用していきます。この哲学により、効率性が驚異的に向上し、複数世代のシステムにわたる桁違いの改善が実現しました。
Tensor Processing Unit(TPU)を例に考えてみましょう。目的に特化したこれらの AI アクセラレータ(最新の Trillium TPU を含む)は、複数世代にわたって、Gemini などの大規模言語モデルや、ノーベル賞を受賞した AlphaFold などの科学的なブレークスルーを含む ML の大きな進歩を推進してきました。しかし、Google は、チップの設計だけにとどまらず、チップを取り巻くシステム全体を考えるようになりました。そして、液体冷却、最先端の光学技術とトポロジ認識機能を備えた高度なネットワーキング システム、持続可能な電力へのコミットメントなどのイノベーションと TPU を組み合わせ、非常に高度な AI プラットフォームを構築しました。さらに、このハードウェア基盤上に JAX、TensorFlow、OpenXLA、Kubernetes などのオープン ソフトウェア フレームワークを積み重ねて、いわゆる AI ハイパーコンピュータを構築しました。このハイパーコンピュータは、Model Garden やアプリケーションと統合することでさらに強化され、AI ワークロードに最適化された垂直統合エコシステムが構築されます。
業界の枠を超えたコラボレーション: アイデアを成果に
総合的な共同設計には、業界の枠を超えたコラボレーション(規格とエコシステムの構築)というメリットもあります。Google と OCP のパートナーシップは、これを示す重要な事例です。2016 年に OCP に正式に参加して以来、Google は貢献の規模を毎年拡大し続けており、今後は以下の 4 つの主要分野における進歩と機会に焦点を当てたいと考えています。
サステナビリティ昨年、Google は他のハイパースケーラーとともに、より環境に優しいコンクリートを目指す野心的なロードマップを作成し、二酸化炭素排出量の削減を目指す業界を挙げた取り組みを主導しました。それ以来、新しい指標やベンチマークが共同で策定され、コンクリートの使用を最小限に抑える効率的なデータセンター設計の特定や、AI を使用した新材料の研究など、大きな成果が達成されてきました。最近のイベントでは、二酸化炭素排出量を 20~40% 削減できるコンクリート混合物の概念実証を行いました。
事業とバリュー チェーン全体における 2030 年までの排出量実質ゼロの達成に向けた取り組みを進める中で、Google にできることはまだまだたくさんあります。今年の OCP では、ライフサイクルを通じたハードウェア関連の排出量の正確な測定、より質の高い炭素データの提供、データセンター用のクリーンで信頼性の高い電源バックアップの開発を目的とする製品カテゴリ規則(PCR)の策定方法について協議が進んでいます。また、エネルギー消費、温室効果ガス排出量、水の使用量に関するあらゆる要素を総合的に調査し続けています。
信頼できるシリコン信頼できるシリコンは、ハイパースケーラー システムの基本要素です。過去 3 年間、Google はルート オブ トラスト管理の再利用可能な IP ブロックである Caliptra を共同開発し、エコシステム全体の企業によって統合が進められている Caliptra 1.0 のオープンソース実装を提供してきました。Google が将来開発する TPU や ARM SoC にも、Caliptra が含まれる予定です。OCP L.O.C.K. プロジェクトは、Caliptra を活用してストレージ デバイス用の階層化されたオープンソースの暗号鍵管理を提供し、信頼性とサステナビリティを向上させます。
シリコンの信頼性の分野では、シリコン障害やサイレント データ エラーに対処するためのシステム アプローチに関する産学連携が継続しています。これには、斬新な研究に対する 6 つの主要な学術機関への資金提供も含まれています。Server Component Resilience(SDC)Specification では、標準化された情報交換とテスト指標、そしてエラーを検出および軽減するためのオープン フレームワークがもたらす将来の機会について話し合われています。
AI アクセラレータAI は、プラットフォームの根本的な変化を伴うため、ハードウェアとソフトウェア全体で革新を進める必要があります。Google は、特に低精度のデータ形式(OCP FP8 や MX など)、ソフトウェア フレームワーク(OpenXLA、JAX、TensorFlow など)、ネットワーキング(Falcon、Ultra Ethernet、Ultra Accelerator Link)などの領域において、AI アクセラレータを標準化する取り組みを積極的に推進してきました。また、ハイパースケーラーや GPU サプライヤーと連携して、ファームウェアの更新、管理インターフェース、RAS(信頼性、可用性、保守性)に関する共通仕様を調整しました。
AI によってコンピューティングに対する需要が飛躍的に増大し続ける中で、Google にできることはまだまだあります。OCP AI Strategic Initiative の一環として、Google は 1 GW を超える液体冷却インフラストラクチャの導入から得た知見を共有し、業界の能力向上を支援しています。また、チップからラック、データセンターに至るまで、新しい電力供給ソリューションを見出しています。Google は 48V ラックで業界をリードしてきましたが、今年の OCP Summit では、データセンターの密度と効率を大幅に高めることができる 400V の DC 配電ソリューションとラック ソリューションを提案します。
システム インフラストラクチャ最後に、Google は基盤となるシステム インフラストラクチャでも大きな進歩を続けています。Google のこの 1 年間の貢献には、データセンター(セキュリティ強化、オープンテスト リポジトリなど)、サーバー(OpenTitan プラットフォームのルート オブ トラストなど)、ネットワーキング(Falcon、テレメトリとシミュレーションにおける SONiC の進歩、高度な PCIe エンクロージャー互換フォーム ファクタ)に関する NVM Express への貢献と、オープンソースのランダムの衝撃および振動テストなどの新しい取り組みが含まれます。また、Google は技術的な貢献にとどまらず、OCP Advisory Board を結成して共同議長を務め、OCP AI Strategic Initiative の設立を主導してきました。
Google は今後も、特に AI インフラストラクチャに求められる一段階上のスケールに対応するために、この分野で革新を続けていきます。今年の OCP Summit では、データセンターへのロボット工学と自動化の導入について話し合いますのでご注目ください。ロボット工学は、幅広い活動(材料の移動、モニタリングと検査、保守と修理、メディア管理)にわたるデータセンターの運用を安全かつ持続的に拡張することを可能にし、これらの設備の構造を根本的に変えます。
新たなインテリジェンス革命に向けたイノベーション
過去 25 年間で、ハイパースケール コンピューティングは目覚ましい進歩を遂げましたが、この先にさらなる進化が待ち受けています。AI による新たなインテリジェンス革命が始まろうとしている今、私たちはコンピューティングのエキサイティングな転換点を迎えています。製造業の産業革命や、モバイル インターネットによる情報革命といった過去の変化と同様に、この革命はテクノロジーと社会に多大な影響を与えるはずですが、それを実現するには総合的なシステム イノベーションが鍵となります。皆様とともに、この取り組みを進めていけることが楽しみでなりません。