Google의 방식: 프로덕션 서비스, 서버, 워크로드 보안

Michael Czapinski
Principal Engineer, Infrastructure SRE
Anton Chuvakin
Security Advisor, Office of the CISO
Get original CISO insights in your inbox
The latest on security from Google Cloud's Office of the CISO, twice a month.
Subscribe해당 블로그의 원문은 2025년 12월 11일 Google Cloud 블로그(영문)에 게재되었습니다.
Google은 보안을 어떻게 할까요? "Google의 방식" 시리즈의 일환으로, 오늘날 가장 시급한 보안 주제, 과제, 우려 사항에 대해 Google이 어떻게 접근하는지에 대한 통찰력, 관찰 내용, 그리고 최고의 팁을 Google 전문가들이 직접 공유합니다. 이번 편에서는 인프라 SRE(사이트 신뢰성 엔지니어링)의 수석 엔지니어인 마이클 차핀스키(Michael Czapinski)가 Google의 프로덕션 서비스, 서버, 워크로드를 보호하는 접근 방식에 대한 통찰력을 공유합니다.
Google에서는 전 세계 수십억 명에게 제품과 서비스를 제공하는 방대한 프로덕션 환경을 운영하고 있습니다. 저희는 Google 생태계를 구동하는 애플리케이션과 데이터를 보호하기 위해 수십 년에 걸쳐 보안 정책과 시스템을 정교하게 다듬어 왔습니다. 저희의 전략은 무단 접근 위협과 점점 커지는 내부망 이동(lateral movement) 위험을 포함하여, 프로덕션 서비스를 손상시킬 수 있는 가장 치명적인 공격에 대한 깊은 이해를 바탕으로 합니다.
동시에, 저희 인프라의 규모와 복잡성을 고려할 때, 보안, 신뢰성, 효율성, 속도, 유지보수성 등 여러 상충하는 우선순위 사이에서 섬세한 균형을 맞춰야 합니다. 저희 SRE(사이트 신뢰성 엔지니어링)팀과 보안팀에게는, 업계 최고 수준의 보안 태세를 유지하면서 이러한 중요한 요구사항들을 해결해 나가는 것이 매일의 과제입니다.
목표는 단 하나의 영역에 과도하게 집중하는 것이 아니라, 실현 가능한 절충안을 찾고, 더 중요하게는 이 모든 다양한 필요와 요구사항들을 효과적으로 조화시킬 수 있는 접근 방식을 개발하는 것입니다. 아래에서는 Google 규모의 프로덕션 워크로드를 보호하는 방법을 정의하는 세 가지 핵심 원칙을 살펴보겠습니다.
인간의 개입을 최소화하여 보안을 극대화하라
시스템이 점점 더 복잡해질수록 실수는 불가피합니다. 의도치 않은 오류는 심각한 서비스 중단으로 이어질 수 있으며 적에게 기회를 만들어 줄 수 있습니다. 실수로 잘못될 수 있는 모든 것은 의도적으로도 잘못될 수 있습니다.
저희의 프로덕션 보안 접근 방식은 'Zero Touch Prod (ZTP)' 철학, 즉 프로덕션 시스템과의 직접적인 인간 상호작용을 최소화하는 것을 목표로 하는 일련의 원칙과 도구에 의해 크게 정의됩니다. ZTP는 모든 프로덕션 변경이 자동화, 사전 검증된 소프트웨어, 또는 감사 가능한 '브레이크 글래스(break glass)' 비상 접근 메커니즘을 통해 이루어져야 한다고 규정합니다. 이는 의도치 않은 사고나 악의적인 행위로 인한 서비스 중단 위험을 줄이는 데 도움이 될 수 있습니다.
저희는 가능한 한 많은 프로덕션 관리를 자동화하기 위해 노력합니다. 일정 수준의 상호작용이 필요한 경우, 저희 SRE 및 보안팀이 승인한 안전하고 명확하게 정의된 명령어만 실행할 수 있는 사전 검증된 소프트웨어 도구인 '안전한 프록시(safe proxies)'를 제공합니다. 또한, 저희는 프로덕션 시스템에 대한 접근 제어를 적용하기 위해 No Persons(NoPe)라는 통제 도구 모음을 사용합니다. 자동화되고 승인된 작업을 넘어서는 접근에 대해서는, 명확한 비즈니스 명분과 승인된 허가를 요구합니다. 상승된 모든 권한은 항상 일시적이며, 절대 영구적이지 않습니다.
저희는 어떠한 대가를 치르더라도 이러한 기반 서비스들을 꼼꼼하게 보호하고, 모니터링하며, 유지보수합니다. 이 서비스들은 정기적으로 엄격한 보안 엔지니어링 검토를 거치며, 저희가 제공하는 최고 수준의 보안 통제 기술로 보호됩니다. 이는 추가적인 비용과 비효율을 감수하면서까지 보안과 신뢰성을 최우선으로 고려한다는 의미입니다.
또한, 저희 SRE팀과 보안팀은 긴밀히 협력하여 기존의 운영 및 온콜(on-call, 긴급대기) 절차를 개선하여 광범위하고 불필요한 권한을 제거합니다. 예를 들어, 저희는 안전 점검, 팀 플레이북, 모범 사례에 기반하여 모든 작업을 자동으로 검토하고 제한할 수 있는 시스템을 만들었습니다.
이러한 노력들은 또한, 오래되고 복잡한 시스템을 더 작고 기능적인 구성 요소로 재설계하는 중요한 엔지니어링 이니셔티브로 이어졌습니다. 이는 보안과 신뢰성을 모두 향상시키면서 위험을 크게 줄여줍니다.
가장 중요한 자산(Crown Jewels)은 어떠한 대가를 치르더라도 보호하라
규모나 범위에 관계없이 모든 인프라에는 저희가 "기반 서비스(foundational services)"라고 부르는 것이 포함되어 있습니다. 이는 저희의 프로덕션 애플리케이션과 워크로드를 보호하는 데 필수적인 핵심 프로덕션 서비스입니다. 이러한 중요한 프로덕션 서비스들은 전체 인프라의 보안을 보장하기 위한 출발점이며, 따라서 가장 높은 수준의 보안 요구사항을 갖습니다.
저희는 어떠한 대가를 치르더라도 이러한 기반 서비스들을 꼼꼼하게 보호하고, 모니터링하며, 유지보수합니다. 이 서비스들은 정기적으로 엄격한 보안 엔지니어링 검토를 거치며, 저희가 제공하는 최고 수준의 보안 통제 기술로 보호됩니다. 이는 추가적인 비용과 비효율을 감수하면서까지 보안과 신뢰성을 최우선으로 고려한다는 의미입니다.
예를 들어, 코어 덤프(core dump)를 비활성화하면 디버깅이 더 어려워질 수 있지만, 루트 접근 키와 같은 강력한 비밀 정보의 유출을 방지하는 데 도움이 될 수 있습니다.
저희는 이러한 서비스 목록을 이상적으로 수십 개 정도로 작게 유지하며, 각 서비스가 손상될 경우 상당한 위험을 초래하기 때문에 새로운 서비스를 거의 추가하지 않습니다. 또한, 가능한 모든 곳에서 권한과 통제를 줄이기 위해 기반 서비스를 주기적으로 감사합니다.
다양한 필요와 요구사항에 맞춘 방어 체계
모든 데이터나 서비스가 동일한 보안 요구사항을 갖는 것은 아닙니다. 내부망 이동(lateral movement) 공격을 방어하기 위해, 저희는 '워크로드 보안 링(Workload Security Rings, WSR)'으로 알려진 계층 구조를 사용하여 워크로드를 격리합니다. 이 개념을 통해 저희는 다양한 서비스를 보안 요구사항에 따라 분류하고, 그에 상응하는 수준의 격리를 제공할 수 있습니다. 결과적으로, 저희는 효율성과 보안 사이에서 현명한 절충을 할 수 있으며, 가장 중요한 자산이 최고 수준의 보호를 받도록 보장합니다.
예를 들어, 모든 제품에 잠재적으로 영향을 미칠 수 있는 기반 워크로드는 가장 높은 수준의 격리 및 보호를 받습니다. 이들은 전용 서버에서 실행되며, 다른 유형의 워크로드와 함께 실행되도록 스케줄링되지 않습니다. 제품별 데이터 또는 고객 데이터를 처리하거나 접근하는 민감한 워크로드 또한 매우 높은 수준의 보호를 받습니다. 이에 비해, 실험 및 일괄 처리와 같이 성능이나 정확성이 저하되더라도 계속 작동할 수 있는 낮은 우선순위의 워크로드에는 비용이 덜 들고 덜 제한적인 보안 조치를 적용합니다.
흥미롭게도, 저희는 보안 개선이 여러 영역에서 이점으로 이어지는 경우가 많다는 것을 발견했으며, 따라서 한 번에 여러 목표를 달성할 수 있는 해결책을 자주 찾습니다. 하지만, 저희는 결코 감수하지 않을 위험 수준에 대해서는 항상 확고한 선을 긋고, 일관되게 그 원칙을 고수하고 지킵니다. 특정 상황 하에서 최적이 아닌 보안 태세가 허용될 수는 있지만, 이는 오직 경영진의 승인과 정해진 기간 내에 최적의 보안 상태로 복원하기 위한 구체적인 계획이 있을 때만 가능합니다.
궁극적으로, 절대적인 보안은 현실적으로 불가능하므로, 저희는 운영 및 고객 서비스 제공 능력에 영향을 주지 않으면서 보호할 방법을 찾아야 합니다.
이 글에는 클라우드 보안 팟캐스트 에피소드, "Zero Touch Prod, 보안 링, 그리고 기반 서비스: Google의 워크로드 보안 방식"의 통찰력이 포함되어 있습니다.



