コンテンツに移動
システム

Google、高信頼性・低レイテンシのハードウェア トランスポートの Falcon をエコシステムに公開

2023年11月9日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 10 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

Google には、イーサネットを使用して大規模な問題を解決し、高バースト帯域幅、高メッセージ レート、低レイテンシを必要とする要求の厳しいワークロードに対応できるよう、トランスポート層を見直してきた長い歴史があります。長い間、ストレージのようなワークロードはこうした特性を必要としてきましたが、大規模な AI / ML トレーニングやハイ パフォーマンス コンピューティング(HPC)といった新たなユースケースにより、その必要性は著しく高まっています。これまで、Association for Computing Machineryインターネット技術特別調査委員会に Google のアイデアを提供することで、トラフィック パターン、輻輳制御、ロード バランシングなどについての知見を業界とオープンに共有してきました。これらのアイデアは、数年前からソフトウェアに実装され、その一部はハードウェアにも実装されています。しかし将来的には、業界全体で柔軟性の高い専用のハードウェア補助とセットで実装することにより、さらに多くのメリットがもたらされるようになると、Google は考えています。

この目標を達成するため、Google はソフトウェアのみのトランスポートよりも一歩進んだパフォーマンスを実現する Falcon を開発しました。今回の OCP Global Summit において、Google は Open Compute Project を通じて Falcon をエコシステムに公開しました。Open Compute Project は、Google の生産性に関する知見でコミュニティを強化し、イーサネットのモダナイズを支援するのに適した場です。

ハードウェア補助型トランスポート層である Falcon は、高信頼性、高性能、低レイテンシを実現するよう設計されており、CarouselSnapSwiftPLBCSIG など、運用実績のあるテクノロジーを活用しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Falcon.max-1700x1700.jpg

以下の図は、Falcon のレイヤを示したものです(関連する機能を含む)。上位層プロトコル(ULP)には RDMA と NVM Express™ が示されていますが、Falcon はエコシステムが必要とするその他の ULP にも拡張できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Falcon.max-2000x2000.jpg

Falcon の下位層では、3 つの重要なインサイトを活用して、高帯域でありながらデータ損失の多いイーサネット データセンター ネットワークで低レイテンシを実現しています。きめ細かなハードウェア補助を活用したラウンドトリップ時間(RTT)測定、柔軟性の高いフローごとのハードウェア強制トラフィック パターン、高速かつ正確なパケットの再送が、PSP で暗号化されたマルチパス対応の Falcon 接続と組み合わされています。この基盤の上で、Falcon はパフォーマンス要件やアプリケーション セマンティクスが多種多様な ULP をサポートできるマルチプロトコル トランスポートとして一から設計されています。ULP マッピング レイヤは、最初から InfiniBand Verbs RDMA と NVMe ULP に対応しているだけでなく、柔軟な順序セマンティクスや適切なエラー処理など、ウェアハウス規模のアプリケーションに不可欠なイノベーションも加えられています。最後になりましたが、ハードウェアとソフトウェアは、プログラマビリティと継続的なイノベーションのための柔軟性を維持しながら、高メッセージ レート、低レイテンシ、高帯域幅という望ましい特性を実現するために連携して動作するよう、協調設計されています。

Falcon には、イーサネットが私たちの業界で果たし続けている中心的な役割が反映されています。ウェアハウス規模で予測可能な高い性能を発揮し、優れた柔軟性と拡張性を実現できるよう設計されています。Google はコミュニティや業界パートナーと協力してイーサネットをモダナイズし、AI 主導の未来のネットワーク要件に応えていく計画です。Falcon は、この分野で進められている他の取り組みに追加されたテクノロジーとして価値のあるものだと Google は確信しています。

業界からの声

業界全体にわたり、Google のパートナーは Falcon が次世代イーサネットの開発に貢献することを熱望しています。

「AI と HPC に最適なデータセンター ファブリックとしてイーサネットを強化するという Ultra Ethernet Consortium のビジョンを共有しているため、Google の Falcon の貢献を歓迎し、この重要な分野における業界の継続的なイノベーションを楽しみにしています。」 - Ultra Ethernet Consortium(AMD、Arista、Broadcom、Cisco、Eviden、Hewlett Packard Enterprise、Intel、Meta、Microsoft、Oracle が主導)議長、J Metz 博士

「Intel IPU E2000 シリーズで最初に利用可能となったのが Falcon です。低いテール レイテンシと輻輳処理を大規模に加えるイーサネット トランスポートの最初のインスタンスとして、この IPU の価値がさらに強化されます。Intel は、高性能 AI と HPC のワークロードのためにイーサネットの進化に取り組む Ultra Ethernet Consortium の運営メンバーです。結果として得られた標準ベースの機能強化を、今後の IPU およびイーサネット製品にデプロイしていく予定です。」 - Intel、ネットワーク&エッジグループ担当 SVP 兼 GM、Sachin Katti 氏

「AI や HPC のような重要なワークロード向けの高性能トランスポート プロトコルが標準のイーサネット / IP ネットワーク上で動作し、アプリケーション用の大きな帯域幅を大規模に実現できることを嬉しく思います。」 - Arista Networks、ソフトウェア エンジニアリング担当グループ VP、Hugh Holbrook 氏

「Cisco は、OCP への Falcon の貢献を嬉しく思っています。当社は長い間オープン スタンダードを支持し、幅広いエコシステムの力を信じてきました。最新のデータセンター ネットワーク、特に AI / ML ネットワークはかつてない速度と規模で普及しており、業界に課題と機会をもたらしています。Falcon はこうしたネットワークの課題の多くに対処し、効率的なネットワーク利用を可能にしてくれます。」 - Cisco、Cisco フェロー、Ofer Iny 氏

「Juniper はオープン エコシステムの強力なサポーターであり、Falcon が OCP コミュニティに公開されることを嬉しく思っています。Falcon は、イーサネットが高帯域幅、低テール レイテンシ、輻輳緩和を提供し、要求の厳しいワークロードのために選ばれたデータセンター ネットワークとして機能することを可能にします。本日より、要求の厳しい AI や ML のワークロード向けの実績あるソリューションが業界にもたらされます。」 - Juniper、最高技術責任者、Raj Yavatkar 氏

「Marvell は、AI のような新しくて要求の厳しいワークロードをサポートするように進化するオープンなイーサネット エコシステムを強力に支援し、その発展にコミットしています。Falcon の OCP への貢献を称えつつ、Google による実践的な経験の共有に感謝します。」 - Marvell、ネットワーク スイッチング グループ担当 SVP 兼 GM、Nick Kucharewski 氏

その他のリソース

ネットワーキングは、この AI 主導の未来に必要とされる、サステナブルかつ安全でスケーラブルなソーシャル インフラストラクチャを構築するうえで基盤となるコンポーネントです。Falcon について詳しくは、OCP Summit のプレゼンテーション「A Reliable and Low Latency Ethernet Hardware Transport(高信頼性、低レイテンシのイーサネット ハードウェア トランスポート)」にご参加ください。Google の Nandita Dukkipati が Expo Hall で午前 11:45 より行います。Falcon の仕様は、2024 年の第 1 四半期に OCP に提供される予定です。

Google の Open Compute Project への貢献と OCP Global Summit への参加について詳しくは、ブログ「How we’ll build sustainable, scalable, secure infrastructure for an AI-driven future(AI 主導の未来のために、サステナブルかつスケーラブルで安全なインフラストラクチャを構築する方法)」をご覧ください。

-Google Cloud、エンジニアリング担当バイス プレジデント Dan Lenoski

-Google Cloud、プリンシパル ソフトウェア エンジニア Nandita Dukkipati

投稿先