パフォーマンス、スケーリング、レジリエンスに優れたデジタル取引所を Google Cloud で実現
Google Cloud Japan Team
※この投稿は米国時間 2024 年 2 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。
新しいデジタル ネイティブの取引所がクラウドでの取引を検討する際に焦点となるのは、多くの場合、レイテンシ、決定論、レジリエンスといった特定の要件です。一般化されたストレージやコンピューティングのパラダイムでは不十分であり、クラウドでの取引をサポートするには独自のアプローチが必要です。このため、この数年間、Google Cloud はワークロードの最適化と計画的な設計をインフラストラクチャ プラットフォームの基本方針として採用しています。専用のインフラストラクチャ、規範的なアーキテクチャ、オープン エコシステムを組み合わせたワークロードに最適化されたインフラストラクチャを提供し、シリコンからお客様のワークロードまでに至る最良パスを構築しています1。
ホストからワークロードをオフロードする方法の例としては、Titanium があります。これは、お客様のワークロードのパフォーマンス、信頼性、セキュリティを向上させる、専用に構築されたカスタム シリコンと複数層のスケールアウト オフロードからなるシステムです。Google Cloud は、専用のインフラストラクチャ、規範的なアーキテクチャ、オープン エコシステムを組み合わせて、ワークロードに最適化されたインフラストラクチャを提供することが、取引所のようなレイテンシの影響を受けやすい業界のワークロードにどのようなメリットをもたらすかを目にしてきました。
デジタル ネイティブの取引所をクラウドで運用できるようにすることは、将来に向けて、パフォーマンス、スケーラビリティ、レジリエンスに優れた市場を実現する機能を提供することを意味します。特に、多くの取引所は、OSS ベースの低レイテンシ、高スループット、フォールト トレラントなメッセージ フレームワークである Aeron に依存しています。資本市場コンサルティング企業でソフトウェア プロバイダでもある、Google Cloud パートナーの Adaptive が最近実施した Google Cloud での Aeron パフォーマンス テストでは、Google Cloud の専用インフラストラクチャ上で Aeron を実行することで、クラウドベースの取引所、マーケット メーカー、マーケット データ アグリゲータの運用に必要なレイテンシ、スケーラビリティ、レジリエンスに直接対処できることが示されています。
クラウドベースの取引所のニーズをサポートするパフォーマンス
Google Cloud Compute Engine C3 仮想マシン インスタンス タイプと Data Plane Development Kit(DPDK)を活用した Aeron メッセージ ファブリックは、毎秒 10 万件のメッセージのノード間通信を実現しました(288 バイトのデータ パケット(FIX 注文メッセージなど)を 18 マイクロ秒 P99(マイクロ秒 = 100 万分の 1 秒)で送信)。これらの指標(図 1)は、低レイテンシのインフラストラクチャによって十分に対応できることを実証しており、市場参加者がクラウドベースの取引所でも安心して取引できることを示しています。さらに重要なことは、この構成により、Aeron Cluster を介して決定論的再現性、高スループット、低レイテンシ、高可用性を実現できたことです。レイテンシの追加コストは、P99 でわずか 18 マイクロ秒でした。
図 1
元のレイテンシやジッターに対処することは重要ですが、急成長するデジタル取引所とその参加者にとっては、成長や市場の変動に対応する能力の方がより重要です。ホスト上のオフロードやアクセラレータにおける Google Cloud の設計と投資には、Infrastructure Processing Unit(IPU)が含まれています。これは、288 バイトサイズで毎秒 470 万件のメッセージを処理し、単一スレッドで毎秒 10 Gb 超を送信できることを実証しました(図2)。このメッセージ レートは、ほとんどの取引所における、マッチング エンジンの通信とデータ配信に必要な要件をはるかに超えています。これらのメッセージ要件を超えて常時運用されているデータフィードは、おそらく、オプション価格報告機関(OPRA)のみです。
図 2
取引所(従来型およびクラウド ネイティブ)は、市場の需要の拡大に伴い、中核となるメッセージ フレームワークの再構築が必要になることがあります。これには、多くの費用がかかるうえ、リスクも高く、混乱が生じる可能性もあります。カスタム IPU を搭載した C3 VM と連携した Aeron メッセージングを使用することで、マッチング処理を常時必要とする取引所の基盤となるメッセージング レイヤを確保できます。
「資本市場の流動性の未来はクラウドにあります。レイテンシ、決定論、レジリエンスに対処する基盤はすでに整っています。私たちは、この変化に対処できるように市場参加者を支援することに尽力しています。このたび、Google Cloud でこれらのベンチマークを発表できることをうれしく思います」 - Adaptive、CEO Matt Barrett 氏
現在と将来の要件を満たすスケーラビリティ
トラフィックをスケーリングして差別化するために、取引に使用される多くのオンプレミス インフラストラクチャは、10g スイッチング インフラストラクチャとマルチ NIC デプロイメントを中心に最適化されたネットワークに依存しています。Titanium ベースのテクノロジーを採用した Google Cloud のネットワーク容量は、一般的な取引所のネットワークを上回る 200 Gbps を提供します。ワークロードに最適化されたインフラストラクチャ設計により、ホストシステムからネットワーク スタックがオフロードされ、CPU が顧客のワークロードの処理を最大化することに集中できるようにします。Hyperdisk Extreme を実装した Titanium 搭載 C3 VM では、要求の厳しいワークロードのニーズに対応するために、コンピューティング インスタンスあたり 500K IOPS がサポートされるようになりました。Titanium のメリットを活かしたこのサポートにより、他の主要ハイパースケーラー 2 社と比較して、インスタンスあたりの IOPS が 25% 高速化されます2。
取引所は市場の変動を制御することはできませんが、メッセージ量の突然のバーストや急増には備えておく必要があります。C3 は、既存のアプリケーションに多額の投資や改良を加えることなく、このような対策に役立てることができます。たとえば、前世代の C2 インスタンス タイプと比較して、Aeron のレイテンシが P50 および P99 で 50% 削減されています。いまや、新しい需要変動に対する計画や準備は、コードを書き直したり最適化したりすることではなく、単に新しいインスタンス タイプを立ち上げることを意味します。Adaptive と Google Cloud は、Aeron を常に最新の状態に保ち、最新の Google Cloud ソリューションに合わせてチューニングすることに取り組んでいます。
災害復旧計画だけではないレジリエンス
レイテンシやスケーラビリティは、デジタル ネイティブの取引所が直面している課題の一部にすぎません。決定論を備えた高速な取引所を運営し、毎秒数百万件のトランザクションを処理することは可能ですが、システムのメンテナンス、OS のアップデート、セキュリティ パッチの適用、新しいコードのデプロイは依然として必要です。従来の取引所では、夜間や週末にシステム メンテナンスのためのダウンタイムが発生しますが、24 時間 365 日稼働するデジタル取引所ではダウンタイムはありません。
Google Cloud 上で取引所を運営する組織は、マッチングや取引サービスの運用に使用される基盤インフラストラクチャの運用管理能力とレジリエンスを維持しています。ソフトウェア レベルでのレジリエンスを実現するために、Aeron Cluster では、高可用性サービスを構築できる Raft コンセンサスの実装を提供しています。特定のノードが利用できなくなっても、Aeron Cluster が新しいノードのリーダーを自動的に指名するため、市場はメッセージ損失ゼロおよび決定論的信頼性によりスムーズに運用されます。さらに、各取引所は、市場の動向(指値注文や RFQ プラットフォームなど)、注文確認の損失に対する許容範囲、規制要件に基づいて、特定の高可用性目標を持つことができます。以下のグラフは、さまざまな可用性アプローチで、Aeron Cluster RAFT コンセンサスを介して決定論的再現性を実現する際のレイテンシの影響を示したものです(図 3)。
-
プライマリ クラスタ用のコンパクト プレースメント内の 1 つのゾーンと、ゾーンの障害発生時に備えた追加のゾーン
-
プライマリ クラスタ用にノード可用性を最大化するためのスプレッド プレースメント内の 1 つのゾーンと、ゾーンの障害発生時に備えた追加のゾーン
-
3 つのゾーンでそれぞれノードを実行し、特定のリージョン内で注文損失ゼロを実現
オンプレミスで稼働している取引所は、インフラストラクチャを制御できる一方で、課題が生じる可能性があります。従来の高可用性ソリューションは依然として複雑でエラーが発生しやすいままであり、複数の単一障害点(ネットワーク、ハードウェア、ハードウェア サプライ チェーン、ソフトウェア、人員)が存在し、手作業によるフェイルオーバーが行われています。Aeron Cluster と Google Cloud のアプローチは、自動化されたフェイルオーバーを提供し、インフラストラクチャのリスクとオペレーターによるエラーの可能性を低減します。最後に、特定の回復力パターンを必要とする企業は、組織ポリシーの制約を使用してゾーン分割を自動化できます。これは、リソース階層内のノード プレースメント(組織、フォルダ、プロジェクトなど)がそれらのレジリエンス要件を満たすのに役立ちます。
ハードウェア レベルでのレジリエンスを実現するために、Google Cloud の C3 インスタンス タイプは Advanced Maintenance をサポートしています。これにより、Google Cloud では顧客のワークロードを中断することなく、ソフトウェアやファームウェアの更新を顧客と調整できます。また、C3 Advanced Maintenance では、重要なワークロードを実行しているインスタンスのメンテナンスを最大 1 か月間延期することが可能で、さらに重要な点として、特定のインスタンスにメンテナンスが必要な場合は、1 週間前に通知されます。Aeron ソフトウェアと Google Cloud の C3 機能を組み合わせることで、取引所は、変更のソースに関係なく、基盤となるインフラストラクチャの変更を適切に管理できます。これには、ホット アップグレード、新機能の有効化、ノードの追加などが含まれ、すべてをサービスの中断なしで行えます。
メンテナンス通知は API 駆動型で、時間枠のスケジュールやステータスなど、計画的なメンテナンス イベントの詳細を提供します。Aeron および取引所のアプリケーションは、メンテナンス通知をネイティブに処理することも可能なため、取引所は、運用モデルを自動的に確立できるようになります。これにより、たとえば、取引量が少ない時間帯、確立済みの変更時間枠、規制上のニーズなど、特定の運用要件に合わせることができます。
次のステップ
取引所は、世界の資本市場にとってリスク管理の重要な拠点であることを自負しています。マクロ的なイベント、制度上の失敗、自然災害などによる不安定な時期には特に重要さが増します。デジタル ネイティブの取引所を、世界の金融コミュニティが必要とするときに確実に利用できるようにするには、パフォーマンス、スケーラビリティ、信頼性を適切に組み合わせる必要があります。
Google Cloud の計画的な設計哲学は、取引所が現在、そしてより重要な将来にわたって、これらの要件を満たせるように支援します。Google Cloud を利用する取引所は、Falcon など、次世代ネットワーク プロトコルに関する Google のリーダーシップと投資のメリットを得ることができます。Falcon は、Association for Computing Machinery やインターネット技術特別調査委員会に協力している信頼性の高い低レイテンシのハードウェア トランスポートです。取引所はまた、Adaptiveとのパートナーシップを通した Aeron メッセージ フレームワークと Google Cloud の連携より、業界固有のパフォーマンスを継続的に改善していくことができます。
ご自身の環境で Aeron のパフォーマンス テストを実施する場合は、Aeron パフォーマンス テスト ガイドをご請求ください。Aeron チームには、ベンチマーク テストのセットアップとデプロイを支援するインフラストラクチャ プロビジョニング モジュールのセットもあります。Google Cloud でのテストのセットアップについては、Aeron チームにお問い合わせください。ご不明な点がございましたら、担当の Google Cloud チームにお気軽にお問い合わせください。
1.Google のワークロード最適化インフラストラクチャを支える Titanium | Google Cloud ブログ、クラスタでのレイテンシの追加コストは、P99 でわずか 18 マイクロ秒。
2. Titanium: ワークロードに最適化されたクラウド コンピューティングのための堅牢な基盤
ー Google Cloud、エクスチェンジおよびエコシステム アーキテクト Scott Caudell
ー Google Cloud、エクスチェンジおよびエコシステム戦略担当 Aaron Walters