Google がデータセンターの物理論理空間を保護する仕組み

このコンテンツの最終更新日は 2023 年 5 月で、作成時点の状況を表しています。お客様の保護の継続的な改善のために、Google のセキュリティ ポリシーとシステムは変更される場合があります。

Google の各データセンターは、マシン、ネットワーク デバイス、制御システムからなる大規模で多様な環境です。データセンターは産業用の複合施設として設計されており、管理、メンテナンス、運用に幅広い役割とスキルが必要になります。

このような複雑な環境では、お客様のデータのセキュリティが最優先事項です。Google は、マシン自体に 6 層の物理コントロール(動画を参照)と多くの論理コントロールを実装しています。また、特定のコントロールが失敗したり、適用されない脅威シナリオを継続的にモデル化しています。

一部の脅威シナリオでは、インサイダー リスクをモデル化し、攻撃者がすでにデータセンターへの正規のアクセス権を取得していることを前提としています。これらのシナリオにより、物理コントロールと論理コントロールの間で多層防御が必要となる空間が明らかになります。この空間は、ラック内のマシンからマシンのランタイム環境までの一定の距離として定義され、物理論理空間と呼ばれています。

物理論理空間は、スマートフォンの周囲の物理環境に似ています。たとえば、スマートフォンがロックされていても、アクセスする正当な理由のある人物には物理的なアクセスを許可するでしょう。Google では、データを保持するマシンに対して、これと同じ考え方を採用しています。

物理論理空間のコントロールの概要

Google では、物理論理空間内に次の 4 つのコントロールを併用しています。

  • ハードウェア ハードニング: 次のような方法で、各マシンに対する物理的なアクセス経路(攻撃対象領域)を減らしています。
    • ポートなどの物理的なアクセス ベクトルを最小限に抑える。
    • 基本入出力システム(BIOS)、管理コントローラ、周辺機器など、ファームウェア レベルで残りのパスをロックダウンする。
  • タスクベースのアクセス制御: 有効な時間的制約がありビジネス上の正当な理由があるユーザーにのみ、セキュア ラック エンクロージャへのアクセスを許可します。
  • 異常イベントの検出: 物理論理空間のコントロールが異常なイベントを検出したときにアラートを生成します。
  • システムの自己防御: 物理環境の変化を認識し、防御アクションで脅威に対応します。

これらのコントロールにより、物理論理空間でセキュリティ イベントが発生するたびに、多層防御のレスポンスが返されます。次の図は、セキュア ラック エンクロージャでアクティブになっている 4 つのコントロールをすべて示しています。

セキュア ラック エンクロージャでアクティブになっている 4 つのコントロール。

ハードウェア ハードニング

ハードウェア ハードニングにより、物理的な攻撃対象領域が減少し、残存リスクを最小限に抑えることができます。

従来の企業のデータセンターでは、オープンなフロアにラックの列が設置され、データセンターのフロアに出入りする人物とフロントパネルとの間に物理的な障壁はなにもありません。このようなデータセンターには USB-A、Micro-USB、RJ-45 などの外部ポートを備えたマシンが数多く存在し、攻撃を受けるリスクは高くなります。データセンターのフロアへの立ち入りが許可されたユーザーは、リムーバブル ストレージにすばやく簡単にアクセスできます。また、マルウェアを含む USB スティックを、露出したフロントパネル ポートに簡単に差し込むことができます。Google データセンターでは、これらのリスクを軽減するため、基本的なセキュリティ対策としてハードウェアのハードニングを実施しています。

ハードウェアのハードニングは、ラックとそのマシンに対する一連の予防策であり、物理的な攻撃対象領域を可能な限り減らすことができます。マシンのハードニングには、次のようなものがあります。

  • 露出しているポートを取り外すか、無効化し、残りのポートをファームウェア レベルでロックします。
  • 忠実度の高い改ざん検出シグナルを使用して、ストレージ メディアをモニタリングします。
  • データ保存時の暗号化を実施します。
  • ハードウェアが対応している場合は、デバイス証明書を使用して、未承認のデバイスがランタイム環境にデプロイされないようにします。

特定のシナリオでは、マシンに物理的にアクセスできないようにするために、Google は改ざんを防止または抑制するためのセキュア ラック エンクロージャを設置しています。セキュア ラック エンクロージャでは通行者との間に物理的な障壁が存在します。また、セキュリティ担当者へのアラームや通知をトリガーすることもできます。エンクロージャは、前述のマシンの修正と組み合わせて、物理論理空間に強力な保護レイヤを提供します。

次の図は、完全にオープンなラックから完全なハードウェア ハードニングを実施したセキュア ラック エンクロージャへの移行を示しています。

  • 次の画像は、ハードウェア ハードニングを行っていないラックを示しています。

    ハードウェア ハードニングを行っていないラック。

  • 次の画像は、ハードウェア ハードニングを実施したラックを示しています。

    ハードウェア ハードニングを実施したラック。

  • 次の画像は、完全なハードウェア ハードニングを実施したラックの前面と背面を示しています。

    完全なハードウェア ハードニングを実施したラックの前面と背面。

タスクベースのアクセス制御

タスクベースのアクセス制御(TBAC)は、正当なビジネスニーズを持つ担当者のみが機密性の高いマシンにアクセスできるようにするのに役立ちます。

セキュア ラック エンクロージャでは、正当な理由のあるアクセスと物理的なセキュリティのバランスをとる必要があります。Google は、お客様の複雑なインフラストラクチャを維持するため、マシンの修理などの正当な理由でインフラに迅速かつ確実にアクセスできなければなりません。また、未承認のアクセス試行は調査のためにログに記録し、報告する必要があります。

TBAC は両方の機能を可能にします。データセンターのスタッフは、特定のビジネスタスクに基づいて個別のセキュア ラック エンクロージャに対する時間制限付きのアクセス権を取得し、TBAC システムがそのアクセス制限を適用します。TBAC は、すべてのアクセス試行をログに記録し、潜在的なセキュリティ イベントを検出するとセキュリティ スタッフにアラートを送信します。

たとえば、作業リクエストを受信すると、スーパーバイザーは Secure Rack Enclosure 123 という名前のラックに格納されたマシンに対するタスクを生成します。次に、スーパーバイザーは作業の時間枠を設定します(たとえば、2 時間)。技術者が作業チケットを申請すると、TBAC はその人物に Secure Rack Enclosure 123 へのアクセスを許可します。この技術者がエンクロージャのドアを開くと 2 時間のタイマーが始動します。TBAC は、2 時間が経過したとき、または技術者が作業を終了したとき Secure Rack Enclosure 123 へのアクセスを取り消し、作業が完了します。

セキュア ラック エンクロージャには、さまざまな認証と認可のメカニズムがあります。最も基本的なエンクロージャは、認証と認可をまとめて付与する物理鍵を使用するため、大まかなセキュリティ管理のみが行われます。セキュリティ強化のため、一部のエンクロージャでは PIN を個別に割り当ててローテーションするためのキーパッドが用意されています。

また、別の認証メカニズムと組み合わせた 2 要素認証を採用しているものもあります。認証は、個人に割り当てられた身分証をスワイプすることで始まります。2 つ目の要素としては、ユーザーが割り当てた PIN や高度な要素(生体認証など)が使用されます。

異常なイベントの検出

異常なイベントの検出により、セキュリティ スタッフはマシンで予期しないイベントの発生をすぐに認識することができます。

業界全体では、組織でセキュリティ侵害が発見されるまでに数か月から数年かかることがあり、多くの場合、侵害が見つかるのは重大な損害や損失が発生した後のことになります。数百万台の本番環境マシンから収集した大量のロギングデータやテレメトリー データから重要なセキュリティ侵害インジケーター(IoC)が失われる可能性があります。Google では TBAC と複数のデータ ストリームを使用しているため、物理論理空間での潜在的なセキュリティ イベントをリアルタイムで特定できます。このコントロールは「異常イベントの検出」と呼ばれます。

最新のマシンは、物理的な状態だけでなく、物理論理空間で発生するイベントもモニタリングして記録します。マシンは、常駐する自動化システム ソフトウェアを通じて、この情報を受け取ります。このソフトウェアは、ベースボード管理コントローラ(BMC)と呼ばれるマシン内のミニコンピュータで実行することも、オペレーティング システム デーモンの一部として実行することもできます。このソフトウェアは、ログイン試行などの重要なイベントや、物理デバイスの挿入、エンクロージャ センサーなどのセンサー アラームを報告します。

異常なイベント検出では、システムから報告されたイベントのコンテキストと TBAC の作業トラッキングを組み合わせて、異常なアクティビティを検出します。たとえば、Secure Rack Enclosure 123 のマシンからハードドライブの取り外しが報告された場合、Google のシステムでは、そのマシンのハードドライブの交換を最近許可したかどうかを確認します。許可されていない場合、報告されたイベントとタスクベースの許可データからアラートがトリガーされ、セキュリティ スタッフはさらに調査を進めることができます。

ハードウェアのルート オブ トラストを備えたマシンでは、異常なイベント検出シグナルがさらに強くなります。ハードウェアのルート オブ トラストを使用すると、BMC ファームウェアなどのシステム ソフトウェアが安全に起動されたことを証明できます。これにより、報告されたイベントの有効性に対する Google の検出システムの信頼度が高くなります。独立したルート オブ トラストの詳細については、分離されたマシンのリモート証明をご覧ください。

システムの自己防御

システムの自己防御により、セキュリティ侵害に対する潜在的な対策を即時に実施できます。

一部の脅威シナリオでは、物理論理空間内の攻撃者がハードウェア ハードニングで説明した物理的なアクセス対策を破る可能性があることを想定しています。このような攻撃者は、マシン上で処理されているユーザーデータや機密情報を標的としている可能性があります。

このリスクを回避するため、Google ではシステムの自己防御を実装しています。これは、セキュリティ侵害が発生した場合に迅速かつ決定的なレスポンスを行うコントロールです。このコントロールは、物理環境からのテレメトリーを使用して論理環境内で動作します。

ほとんどの大規模な本番環境では、1 つのラックに複数の物理マシンが格納されています。各物理マシンは、仮想マシン(VM)や Kubernetes コンテナなど、複数のワークロードを実行します。各 VM は、専用のメモリとストレージを使用して独自のオペレーティング システムを実行します。

セキュリティ イベントにさらされているワークロードを特定するため、Google は、ハードウェア ハードニング コントロール、TBAC、異常イベントの検出からテレメトリー データを集計します。次に、データを関連付け、リスクが高く早急な対応が必要な少数のイベントを生成します。たとえば、セキュアラックのドアアラーム、マシンとシャーシ開口部のシグナルの組み合わせ、有効な作業許可の欠如は、高リスクのイベントになる可能性があります。

Google では、これらのイベントを検出するとすぐに次の処理を行います。

  • 影響を受けているワークロードで機密性の高いサービスを直ちに終了し、機密データを消去できます。
  • ネットワーク ファブリックによって、影響を受けたラックを隔離できます。
  • 影響を受けるワークロードは、状況に応じて他のマシンやデータセンターで再スケジュールできます。

システムの自己防御コントロールにより、攻撃者がマシンへの物理的アクセスに成功しても、データを抽出することはできず、環境内での横展開もできません。

次のステップ


作成者: Thomas Koh、Kevin Plybon