コンテンツに移動
システム

AI 主導の未来のために、サステナブルかつスケーラブルで安全なインフラストラクチャを構築する方法

2023年11月9日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 10 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: 今回は、Google バイス プレジデント兼テクニカル フェローの Parthasarathy Ranganathan と、VP 兼 GM の Amin Vahdat から話を聞きます。Partha は本日、オープン ハードウェア業界のリーダー、研究者、先駆者のための年次会議である OCP Global Summit で基調講演を行いました。Partha は 2020 年から今年初めまで OCP の理事を務めました。その後は Amber Huffman が Google の代表者として後任を務めています。最先端のシステム設計を促進しているマクロトレンドと、コミュニティにおける Google の活動すべての概要を以下にご紹介します。

Google では、何十億ものユーザーに活用されているサービスのための地球規模のコンピューティングを構築しています。これらのサービスは、システム設計者にとって、高いパフォーマンス、復元力、効率性を備え、かつ大規模に動作するハードウェアを作成する素晴らしい機会につながりました。つまり、私たちはシステム設計の新時代に向けてオープン イノベーションを採用しました

現在、私たちはコンピューティングにおける新たな根本的な転換点、つまり AI の台頭に立ち会っています。これまでも、Google のプロダクトには常に強力な AI コンポーネントが含まれていましたが、ここ 1 年における業界の地殻変動を受けて、Google はコア プロダクトを生成 AI の力で強化しました。

これらの進歩は、2017 年の最初の Transformer モデルから 2022 年の PaLM、そして現在の Bard に至るまで、当社のコンピューティング システムとワークロード全体に現れています。大規模言語モデルのパラメータ数は、数億から数兆にまで成長し、毎年ほぼ一桁ずつ増加しています。モデルのサイズが大きくなるにつれて、これらのモデルを実行するために必要な計算量も増加します。これは要するに、オープン イノベーション コミュニティが協力して解決する必要がある課題と機会が生まれるということです。

AI は、新しいアプリケーションを実現するだけでなく、プラットフォームの根本的な変化を表すものであり、ハードウェアとソフトウェア全体で革新を進める必要があります。私たちは協力して、サステナブルで安全かつスケーラブルな方法で、複雑な ML スーパー コンピュータ全体に強力な AI ソリューションを提供するハードウェア プラットフォームとソフトウェア プラットフォームを構築する必要があります。

サステナブルなシステムに向けて

サステナビリティは私たち全員に共通の必須事項です。排出量実質ゼロの達成に向けて業界を支援するために、Google が関与している取り組みをいくつかご紹介します。

  • ネット ゼロ イノベーション ハブ: 4 月の OCP 地域サミットにおいて、地域レベルでサステナビリティを推進するためにヨーロッパ全土の官民が連携することを求めた Google の呼びかけに、業界が応えたことで始まった取り組みです。廃熱の再利用や送電網の可用性など、あらゆる範囲にわたる野心的な議題を掲げるネット ゼロ イノベーション ハブは、共同創設者である Danfoss、Google、Microsoft、Schneider Electric によって 9 月 28 日に創設されました。
  • より環境に優しいコンクリート: iMasons Climate Accord、AWS、Google、Meta、Microsoft と協力して、コンクリートを脱炭素化するための野心的な技術ロードマップを作成しました。コミュニティで連携して、このロードマップをぜひ実行したいと考えています。ぜひご参加ください。
  • サステナビリティの指標: 昨年、Google と Microsoft が共同で主導する OCP データセンター施設のサステナビリティに関するサブプロジェクトを立ち上げました。このグループは、排出量 / 炭素、エネルギー、水などに関する明確で一貫性のある標準化された指標の確立を進めるうえで重要な進化を遂げています。この取り組みにより、共通の目標を達成するために最適な方法を評価するための、基準が一貫したデータドリブンなアプローチが可能になります。

システム スタック全体のセキュリティの強化

セキュリティには、トラステッド コンピューティングとリライアブル コンピューティングの両方が含まれます。この分野における興味深い進展を以下にご紹介します。

  • Caliptra: Caliptra は、ルート オブ トラスト管理用の再利用可能な IP ブロックです。昨年、私たちは業界リーダーである AMD、Microsoft、NVIDIA と協力して、Caliptra 仕様の草案を OCP に提供しました。Caliptra 仕様は今年完成し、IP ブロックを CPU、GPU、その他のデバイスに統合する準備が整います。https://github.com/chipsalliance/caliptra でコード リポジトリを確認してください。
  • OCP S.A.F.E.: Google は OCP および Microsoft と連携して、OCP Security Appraisal Framework and Enablement(S.A.F.E.)プログラムを開発しました。OCP S.A.F.E. は、ファームウェア リリースの出所、コード品質、ソフトウェア サプライ チェーンに対する標準化されたアプローチを提供します。詳細については、https://www.opencompute.org/projects/ocp-safe-program をご覧ください。
  • リライアブル コンピューティング: 昨年 Google は、AMD、ARM、Intel、Meta、Microsoft、NVIDIA とともに、OCP でサーバー コンポーネントの復元ワークストリームを形成し、シリコン障害やサイレント データ エラーに対処するためのシステム アプローチを採用しました。このチームは、仕様草案の公開や、Silent Data Corruption(SDC)フレームワークのオープンソース化など、大きく前進しました(例: Open Datacenter Diagnostics、AMD の Open Field Health Check、NVIDIA の Datacenter GPU Manager での Intel と ARM のコラボレーション)。この重要な分野を迅速に発展させていくため、この分野における重要な学術研究を支援する会員企業と協力して、OCP としては初の新しい学術助成プログラムを立ち上げることになりました。

シリコンからクラウドまでのスケーラビリティ

Google と OCP の両方にとって、シリコンからクラウドに至るまでのスケーラブルなインフラストラクチャは、主要な焦点分野となっています。今週の OCP Summit では、この分野における進歩、具体的には以下について話し合います。

  • アクセラレータ: 今年、Google は AMD、ARM、Intel、Meta、NVIDIA と連携して OCP 8 ビット浮動小数点仕様を実現し、トレーニングとサービス提供をそれぞれ別個のアクセラレータで行えるようにしました。Google は Microsoft、NVIDIA と連携して、信頼性管理性更新をカバーする GPU およびアクセラレータ用の一連のファームウェア仕様を提供しました。
  • AI: AI Track では、OpenXLA エコシステムにおけるパートナーとの進歩をご紹介します。また、AI によってシステム設計をどのように変革できるかを検討し、AI のためのシステムを超えてシステムのための AI を目指す、MLCommons との共同による新しい取り組みである Architecture Gym についても議論します。
  • ネットワーキング: 大規模な AI インフラストラクチャを実際に構築するには、世界クラスのネットワーキング システムのイノベーションが必要です。これを支援するため、Google の信頼性の高い低レイテンシのハードウェア トランスポートである Falcon を公開し、パフォーマンス、レイテンシ、トラフィック制御などに関して過去 10 年間に達成した進歩の一部をご紹介します。これは、継続的な取り組みの一環であり、ハイパースケーラー環境向けの高性能、低レイテンシ ファブリックとして、業界におけるイーサネットの役割を進化させます。詳細については、ブログ投稿「Google、高信頼性・低レイテンシのハードウェア トランスポートの Falcon をエコシステムに公開」をご覧ください。
  • ストレージ: Google は、Meta、Microsoft、Dell、HPE とのワーキング グループである OCP Data Center NVM Express™(NVMe)仕様に参加し、柔軟なデータ配置、セキュリティ、テレメトリなどのデータセンター SSD の機能に対する明確な要件を提供します。また、パートナーである Microsoft、Samsung、Kioxia、Solidigm と協力して、NVMe キー管理ブロックを開発する新しいオープンソース ハードウェアの取り組みも開始しています。

業界のあらゆる企業に、イノベーションのためのさらにオープンなエコシステムを構築する大きなチャンスがあります。Google には、Android、Chromium、Kubernetes、Kaggle、Tensorflow、Jax など、オープン エコシステムを受け入れ、育成してきた伝統があります。また、業界標準を設定し、コミュニティを成長させ、イノベーションを広く共有してきました。Open Compute Project Foundation への Google の貢献は数年前に遡り、最初の 48V ラックの寄贈から今日に至るまで、OCP 理事会に所属し、特に貢献している企業の一つとなっています。Google は、ハードウェアとソフトウェア、複数レイヤのスタック、コンピューティング、ネットワーク、ストレージ、インフラストラクチャ、産業界と学術界、そしてもちろん企業全体にわたる共同設計とコラボレーションを通じて達成される、最高の瞬間はまだ訪れていないと考えています。

現在は、日々の新たな AI の進歩が、文字どおり未来を作り出しているという刺激的な時代です。こうした驚くべき AI の進歩すべてに対応していくには、AI 主導の未来に必要なサステナブルで安全かつスケーラブルな社会インフラを構築するための、インフラストラクチャ周りの健全なイノベーション エコシステムを業界のあらゆる企業が提供する必要があります。そしてこれらすべては、コミュニティ内の私たち全員の協力によってのみ可能になります。OCP Global Summit のアジェンダについて詳しくは、こちらをご覧ください。また、Google による講演については、こちらをご覧ください。今週も活発な議論が行われることを楽しみにしています。

-Google、バイス プレジデント / テクニカル フェロー Parthasarathy Ranganathan

-Google、ML / システム / Cloud AI 担当バイス プレジデント兼ゼネラル マネージャー Amin Vahdat

投稿先