コンテンツに移動
ネットワーキング

Firefly: データセンターでナノ秒レベルのクロック同期を実現するソリューション

2026年3月5日
Rohit Dalal

Product Manager, Google

Yuliang Li

Software Engineer

Try Nano Banana 2

State-of-the-art image generation and editing

Try now

※この投稿は米国時間 2026 年 2 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。

イベントをナノ秒単位の精度で同期する機能は、ウォール街の高頻度取引フロアからクラウド データセンターのオーケストレーションまで、さまざまな場面で不可欠です。しかし、最新のデータセンターの相互接続された数千台のデバイス全体でこのレベルの時刻精度を実現するには、クロック ドリフト、ネットワーク ジッター、パスの非対称性などの多数の課題に対処しなければなりません。従来、クラウドホスト型のインフラストラクチャでは高レベルの時刻精度を実現することは不可能であったため、特定のクラスのアプリケーションを実行できませんでした。

そこで登場したのが、Google の研究者とエンジニアが開発したクロック同期システム「Firefly」です。Firefly は単なるクロック同期プロトコルではありません。理論的な分析情報と実用的なエンジニアリングを組み合わせ、要求の厳しいデータセンター環境内のコモディティ ハードウェアで、超高精度かつスケーラブルな、費用対効果の高い時刻同期を実現するソフトウェア主導のアプローチです。

ナノ秒単位の競争: 正確なタイミングが重要である理由

正確なクロック同期は、分散システムの基盤です。金融取引所では、規制要件により協定世界時(UTC)への 100 マイクロ秒未満の外部同期が義務付けられており、公平性を確保するために 10 ナノ秒未満の内部クロック同期が求められているため、妥協は許されません。高頻度取引では、タイミングがわずかに優位であるだけで大きな利益につながる可能性があるため、正確なタイムスタンプは市場の健全性を保つために不可欠です。金融以外の分野でも、データベースの整合性、分散ロギング、仮想マシンの管理、ネットワーク テレメトリーなど、多くのデータセンター運用で、イベントを正確な時間順に並べることが重要になっています。データセンターの拡大に応じて、堅牢かつスケーラブルな同期ソリューションの必要性がさらに高まっています。

しかし、動的なデータセンター環境でナノ秒レベルの同期を実現するには困難が伴います。次のようないくつかの要因によって、精度が損なわれます。

  • クロック ドリフト: すべてのクロックの基本となる水晶発振器には、時間の経過に応じて徐々にずれが生じるという特有の欠陥があります。従来は、こうしたずれの影響は小さいと考えられていましたが、10 ナノ秒未満を目指す場合は大きな問題となります。

  • ジッター: スイッチやネットワーク インターフェース カード(NIC)などのネットワーク コンポーネントによって、予測不可能な遅延が発生します。ネットワーク バッファでのキューイングやパケットの複雑な処理に起因することが多いこれらの遅延は、ジッターとして顕在化し、同期メッセージのタイミングを乱します。

  • 非対称性: 2 台のデバイス間のネットワーク パスが対称であることはほとんどありません。ケーブルの長さ、ホップ数、ネットワーク機器の内部動作の違いにより、信号が反対方向に伝わるまでにかかる時間が異なる場合があります。この非対称性が原因で、一方向の遅延とクロック オフセットを推定する際に大きなエラーが生じる可能性があります。

  • スケーラビリティ: データセンターが数万台のサーバーを収容するほどに拡大した場合、同期ソリューションも、ボトルネックになったり、不釣り合いなリソースを必要としたりすることなく、状況に応じて効率的に拡張できなければなりません。

  • フォールト トレランス: 分散システムでは、障害は避けられません。全体的な同期の精度が損なわれないよう、同期プロトコルには、個々のノードやネットワーク リンクの損失または誤動作に対する復元力が必要です。

Firefly: ソフトウェアと理論の橋渡し

多面的な戦略を使用してこれらの課題に対処する Firefly は、従来の同期プロトコルとは一線を画しています。その主なイノベーションは、アーキテクチャ設計と理論的基盤に見出されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1-architecture_v1.max-1200x1200.jpg

1. レイヤー型同期: Firefly は、レイヤー型同期という新技術を採用しています。単一障害点になる可能性や遅延を引き起こす可能性のある中央クロックに依存するのではなく、まずデータセンター内の NIC 間で緊密な内部同期を確立します。ネットワーク内の各 NIC は、常に一連のピアと通信し、時刻を比較して調整します。このデバイスの「群れ」から、グループ全体が合意する、非常に安定した正確なコンセンサス タイムが明らかになります。この内部同期は高速かつ堅牢であるため、外部のタイミングの乱れから効果的に保護されます。同時に、Firefly は「群れ」全体を UTC に同期します。これらの 2 つのプロセスを分離することは非常に重要です。なぜなら、タイムサーバーのジッターやドリフトなどの外部要因が内部同期に直接影響しないようにできるからです。

2. ランダムグラフ上の分散コンセンサス: 脆弱で単一障害点の影響を受けやすい従来の階層型アプローチとは異なり、Firefly は d 正則ランダムグラフ上に構築された分散コンセンサス アルゴリズムを使用します。つまり、各 NIC はランダムに選択された「d」個のピアと通信します。Firefly の研究論文に掲載されている理論分析から、このようなランダムグラフには次のような大きな利点があることが判明しています。

  • 合致の高速化: ランダムグラフを使用することで、ネットワーク全体でのクロック情報のより迅速な伝播を促進し、より高速な同期につなげることができます。

  • スケーラビリティ: 理論上の限界では、ピアの数(「d」)がノードの総数に対して対数的にスケールする場合、ネットワークのサイズが大きくなってもランダムグラフは同期精度を維持できることが示されています。

  • 非対称性に対する復元力: ランダムグラフに固有の多様なプローブパスにより、パスの非対称性の影響を平均化して軽減できます。

3. ジッターと非対称性を実際に軽減: ランダムグラフの理論上の利点に加えて、Firefly には精度をさらに高めるための実用的な手法が組み込まれています。

  • RTT フィルタリング: Firefly は、ラウンドトリップ時間(RTT)の測定値を分析することで、キューイング ジッターの影響を受けている可能性が高いプローブ サンプルを特定して破棄し、遅延推定の精度を向上させます。

  • パス プロファイリング: Firefly はネットワーク パスを積極的にプローブし、非対称性が最小限のパスを特定して優先します。このプロアクティブなアプローチにより、同期に関して最も信頼性の高いパスを選択できます。

  • ハードウェアの活用: 利用可能な場合、Firefly はネットワーク スイッチのトランスペアレント クロック(TC)などの機能を利用して、スイッチ内の遅延を正確に把握し、測定エラーをさらに低減します。

4. 堅牢性とフォールト トレランス: Firefly は分散コンセンサスを平均化メカニズムと組み合わせて使用するため、障害に対する本質的な復元力を備えています。単一のタイムサーバーや固定の階層構造に依存しないことで、個々のノードの損失または誤動作に適切に対処できます。

実環境でのパフォーマンス

Firefly の研究論文に掲載されている結果には説得力があります。

  • 内部同期: Firefly は、Google の最新のデータセンター ファブリック技術と組み合わせて使用すると、NIC 間で常に 10 ナノ秒未満の同期を実現します。これを使用して、マシン間のパケット、ログ、リモート プロシージャ コール(RPC)などのイベントの順序を決定できます。

  • 外部同期: また、金融取引所の規制要件である 100 マイクロ秒よりもはるかに優れた UTC への同期も可能です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2-graph_h5KX17K.max-1000x1000.jpg

Firefly 同期ネットワークで 6 ホップ離れた 2 つのクロック間のオフセットを、オシロスコープで 1 秒あたり 1 パルスで測定。

次の動画は、1 秒あたり 1 パルス(1 PPS)で NIC から出力される信号を利用してオシロスコープで定量化された、NIC 間同期の精度を示しています。各行は NIC クロックに対応しており、立ち上がりエッジは NIC クロックが整数の秒数に達した瞬間を示しています。オシロスコープの観測では、測定されたすべての NIC がほぼ同期しており、数ナノ秒以内で合致していることがわかります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_GLx4Roj.max-1300x1300.jpg

Firefly はコモディティ ハードウェア上のソフトウェアのみで動作し、高価な専用の同期機器を必要としないことを考慮すると、この結果は特に素晴らしいものです。これにより、幅広いデータセンター アプリケーションが超高精度の時刻同期に対応できるようになります。

未来の可能性の基盤

スケーラブルかつ費用対効果の高い方法でナノ秒レベルの精度を実現した Firefly の成功は、広範囲に影響をもたらします。

  • 高精度のタイミングの民主化: Firefly を使用すると、従来は高価な専用ハードウェアに依存していたクラウドホスト型の金融サービスで、標準的なクラウド インフラストラクチャを使用して必要な精度を実現できるようになります。

  • 新たな用途への対応: データセンターのデバイス全体で同期された正確なクロックを利用できるようになると、きめ細かいネットワーク テレメトリーと輻輳制御、時間調整された分散システム、ML ワークロードの確定的ファブリックなどの分野に新たな可能性がもたらされます。

  • データセンターの運用の変革: Firefly は、緊密に統合された正確なタイミングのコンピューティング エンティティを作成することで、データセンターの全体的な効率、信頼性、パフォーマンスを向上させることができます。

つまり、Firefly はクロック同期の分野における大きな進歩であると言えます。グラフ理論とコンセンサス アルゴリズムに関する理論的な分析情報と、実用的なネットワーク エンジニアリング手法を巧みに組み合わせることで、複雑な分散環境でナノ秒レベルの精度を実現するという長年の課題を克服しています。データセンターが進化し続ける中、Firefly のようなシステムは、高性能で信頼性が高く公平な未来のインフラストラクチャを構築するうえで重要な役割を果たすでしょう。

- Google、プロダクト マネージャー、Rohit Dalal

- ソフトウェア エンジニア、Yuliang Li

投稿先