Google이 데이터 센터에서 물리적-논리적 공간을 보호하는 방법

이 콘텐츠는 2024년 5월에 마지막으로 업데이트되었으며 작성 당시의 상황을 나타냅니다. Google의 보안 정책 및 시스템은 고객 보호를 지속적으로 개선함에 따라 앞으로도 계속 변경될 수 있습니다.

각 Google 데이터 센터는 머신, 네트워킹 기기, 제어 시스템이 포함된 대규모의 다양한 환경입니다. 데이터 센터는 관리, 유지보수, 운영을 위한 광범위한 역할과 기술이 필요한 산업용 복합 시설로 설계되었습니다.

이러한 복잡한 환경에서는 Google의 데이터 보안이 최우선 과제입니다. Google은 머신 자체에 물리적 제어 6개 레이어(동영상) 및 여러 논리적 제어를 구현합니다. 또한 특정 제어가 실패하거나 적용되지 않는 위협 시나리오를 지속적으로 모델링합니다.

일부 위협 시나리오는 내부자 위험을 모델링하고 공격자가 이미 데이터 센터 현장에 액세스할 수 있다고 가정합니다. 이러한 시나리오는 심층 방어가 필요한 물리적 제어와 논리적 제어 사이에 공간을 드러냅니다. 랙에 있는 머신에서 머신의 런타임 환경으로의 arm-length로 정의된 공간을 물리적-논리적 공간이라고 합니다.

물리적-논리적 공간은 휴대전화의 물리적 환경과 유사합니다. 휴대전화가 잠겨 있어도 합당한 액세스 이유가 있는 직원에게만 물리적 액세스 권한을 부여합니다. Google은 데이터를 보관하는 머신에도 동일한 접근 방식을 사용합니다.

물리적-논리적 제어 요약

물리적-논리적 공간 내에서 Google은 함께 작동하는 3가지 제어를 사용합니다.

  • 하드웨어 강화: 공격 표면이라고 하는 각 머신의 물리적 액세스 경로를 다음 방법으로 줄입니다.
    • 포트와 같은 물리적 액세스 벡터를 최소화합니다.
    • 기본 입력/출력 시스템(BIOS), 모든 관리 컨트롤러, 주변기기를 포함하여 펌웨어 수준의 나머지 경로를 잠급니다.
  • 이상 이벤트 감지: 물리적-논리적 제어가 이상 이벤트를 감지하면 알림을 생성합니다.
  • 시스템 자체 방어: 물리적 환경의 변화를 인식하고 방어 작업으로 위협에 대응합니다.

이와 같은 제어를 함께 사용하면 물리적-논리적 공간에서 발생하는 보안 이벤트에 대한 심층 방어 응답이 제공됩니다. 다음 다이어그램은 보안 랙 인클로저에서 활성화된 세 가지 제어를 모두 보여줍니다.

안전한 랙 인클로저에서 작동하는 세 가지 제어 기능

하드웨어 강화

하드웨어 강화는 물리적 공격 표면을 줄여 잔여 위험을 최소화하는 데 도움이 됩니다.

기존의 엔터프라이즈 데이터 센터에서는 개방형 평면도와 전면 패널과 데이터 센터 현장에 있는 사람들 간의 장벽이 없는 랙 행이 있습니다. 이러한 데이터 센터에는 공격 위험을 증가시키는 외부 포트(예: USB-A, 마이크로 USB, RJ-45)가 많은 머신이 있을 수 있습니다. 데이터 센터 현장에 실제로 액세스할 수 있는 누구나 이동식 저장소에 빠르고 쉽게 액세스하거나 멀웨어가 포함된 USB 스틱을 노출된 전면 패널 포트에 연결할 수 있습니다. Google 데이터 센터는 하드웨어 강화를 기본 제어로 사용하여 이러한 위험을 완화합니다.

하드웨어 강화는 물리적 공격 표면을 최대한 줄이는 데 도움이 되는 랙 및 머신의 예방 조치 모음입니다. 머신 강화에는 다음이 포함됩니다.

  • 노출된 포트를 삭제 또는 중지하고 펌웨어 수준에서 나머지 포트를 잠급니다.
  • 정확도 높은 조작 감지 신호로 스토리지 미디어를 모니터링합니다.
  • 저장 데이터 암호화합니다.
  • 하드웨어에서 지원하는 경우 기기 증명을 사용하면 승인되지 않은 기기가 런타임 환경에 배포되지 않도록 막을 수 있습니다.

또한 일부 시나리오에서는 직원이 머신에 물리적으로 액세스할 수 없도록 Google에서 조작 방지에 도움이 되는 보안 랙 인클로저를 설치합니다. 보안 랙 인클로저는 통행인에게 즉각적인 물리적 장벽을 제공하며 보안 담당자에게 경보 및 알림을 트리거할 수도 있습니다. 앞에서 설명한 머신 구제 조치와 함께 인클로저는 물리적-논리적 공간에 대한 강력한 보호 레이어를 제공합니다.

다음 이미지는 완전히 열린 랙에서 전체 하드웨어 강화가 적용된 안전한 랙 인클로저로의 진행을 보여줍니다.

  • 다음 이미지는 하드웨어 강화가 없는 랙을 보여줍니다.

    하드웨어 강화가 없는 랙

  • 다음 이미지는 일부 하드웨어가 강화된 랙을 보여줍니다.

    일부 하드웨어가 강화된 랙

  • 다음 이미지는 전체 하드웨어 강화가 적용된 랙의 전면과 후면을 모두 보여줍니다.

    전체 하드웨어 강화가 적용된 랙의 전면과 후면

이상 이벤트 감지

이상 이벤트 감지를 사용하면 머신에 예기치 않은 이벤트가 발생할 때 보안 담당자에게 알려줍니다.

업계 전반에서 조직이 보안 침해를 발견하는 데 몇 개월 또는 몇 년이 걸리기도 하며 종종 심각한 손상이나 손실이 발생한 후에 발견하는 경우도 있습니다. 수백만 개의 프로덕션 머신에서 대량의 로깅 및 원격 분석 데이터가 발생할 경우 중요한 침해 지표(IoC)가 손실될 수 있습니다. 그러나 Google에서는 여러 데이터 스트림을 사용하여 잠재적인 물리적-논리적 보안 이벤트를 실시간으로 식별합니다. 이 제어를 이상 이벤트 감지라고 합니다.

최신 머신은 물리적-논리적 공간에서 발생하는 이벤트뿐만 아니라 물리적 상태를 모니터링하고 기록합니다. 머신은 항상 존재하는 자동화된 시스템 소프트웨어를 통해 이 정보를 수신합니다. 이 소프트웨어는 베이스보드 관리 컨트롤러(BMC)라고 하는 머신 내부의 소형 컴퓨터에서 실행되거나 운영체제 데몬의 일부로 실행될 수 있습니다. 이 소프트웨어는 로그인 시도, 실제 기기 삽입, 인클로저 조작 센서와 같은 센서 경보 등 중요한 이벤트를 보고합니다.

신뢰할 수 있는 하드웨어 루트가 있는 머신의 경우 이상 이벤트 감지 신호가 더 강력해집니다. 신뢰할 수 있는 하드웨어 루트를 사용하면 BMC 펌웨어와 같은 시스템 소프트웨어가 안전하게 부팅되었음을 증명할 수 있습니다. 따라서 Google 감지 시스템은 보고된 이벤트의 유효성을 더욱 확신할 수 있습니다. 독립적인 신뢰할 수 있는 루트에 대한 자세한 내용은 분리형 머신의 원격 증명을 참조하세요.

시스템 자체 방어

시스템 자체 방어를 사용하면 시스템이 즉각적인 방어 작업으로 잠재적 손상에 대응할 수 있습니다.

일부 위협 시나리오에서는 물리적-논리적 공간의 공격자가 하드웨어 강화에서 설명한 물리적 액세스 조치를 통과할 수 있다고 가정합니다. 이러한 공격자는 사용자 데이터 또는 머신에서 실행되는 민감한 프로세스를 대상으로 지정할 수 있습니다.

Google은 이러한 위험을 완화하기 위해 잠재적 손상에 즉각적인 즉각적인 응답을 제공하는 제어인 시스템 자체 방어를 구현합니다. 이 제어는 물리적 환경의 원격 분석을 사용하여 논리적 환경에서 작동합니다.

대부분의 대규모 프로덕션 환경에는 하나의 랙에 여러 개의 물리적 머신이 있습니다. 각 물리적 머신은 가상 머신(VM) 또는 Kubernetes 컨테이너와 같은 여러 워크로드를 실행합니다. 각 VM은 전용 메모리와 스토리지를 사용하여 자체 운영체제를 실행합니다.

Google은 보안 관련 활동에 노출되는 워크로드를 확인하기 위해 하드웨어 강화 제어 및 이상 이벤트 감지로부터 원격 분석 데이터를 집계합니다. 그런 다음 데이터의 상관관계를 지정하여 위험도가 높고 즉각적인 조치가 필요한 소규모 이벤트 집합을 생성합니다. 예를 들어 안전 랙 도어 경보와 머신 섀시 열기 신호가 조합되면 고위험 이벤트가 발생할 수 있습니다.

이러한 이벤트가 Google에 감지되면 시스템이 즉시 조치를 취할 수 있습니다.

  • 노출된 워크로드는 민감한 서비스를 즉시 종료하고 민감한 정보를 삭제할 수 있습니다.
  • 네트워킹 패브릭은 영향을 받는 랙을 격리할 수 있습니다.
  • 영향을 받는 워크로드는 상황에 따라 다른 머신이나 데이터 센터에서도 다시 예약할 수 있습니다.

시스템 자체 방어 제어로 인해 공격자가 머신에 물리적으로 액세스하는 데 성공하더라도 공격자는 데이터를 추출할 수 없고 환경에서 측면으로 이동할 수 없습니다.

다음 단계


저자: Paul Pescitelli, Kevin Plybon