콘텐츠로 이동하기
인프라

25년간 웨어하우스 규모의 컴퓨팅 경험에서 얻은 3가지 핵심 교훈

2025년 3월 12일
https://storage.googleapis.com/gweb-cloudblog-publish/images/Screenshot_2025-03-12_at_5.46.38PM.max-1700x1700.png
Parthasarathy Ranganathan

VP, Engineering Fellow

Urs Hölzle

SVP, Cloud Infrastructure

이러한 교훈은 AI와 클라우드 컴퓨팅 수요가 계속 증가함에 따라 기술 리더들에게 여전히 중요합니다.

Google Cloud 사용해 보기

$300의 무료 크레딧과 20개 이상의 항상 무료인 제품으로 Google Cloud 사용을 시작해보세요.

무료 체험

* 본 아티클의 원문은 2025년 03월 13일 Google Cloud 블로그(영문)에 게재되었습니다.

편집자 주: 1998년에 Google은 이미 확장과 관련한 큰 문제에 직면해 있었습니다. 웹 검색이 제대로 이루어지기 위해서는 당시 가장 강력한 독립 컴퓨터 여러 대로는 감당할 수 없는 엄청난 양의 컴퓨팅 성능과 스토리지가 필요했습니다. Google은 그에 대한 해결책으로 수천 대의 상호 연결된 서버를 하나의 슈퍼컴퓨터처럼 효과적으로 작동하도록 만든 대규모 데이터 센터를 발명했습니다.

오늘날 이 접근 방식은 '웨어하우스 규모의 컴퓨팅(warehouse-scale computing; WSC)'으로 알려져 있습니다. 25년이 지난 지금, WSC는 모든 하이퍼스케일 및 클라우드 컴퓨팅에서 중추적인 역할을 하면서 Gmail과 YouTube부터 오늘날 전 세계 산업 전반에서 혁신을 주도하는 AI 모델에 이르기까지 모든 서비스를 뒷받침하고 있습니다.

Google의 리더인 Parthasarathy Ranganathan과 Urs Hölzle가 이 기념비적인 성과를 기념하기 위해 Google의 WSC 여정을 회고하는 글을 게시했습니다. 이 상세한 자료는 급격한 성장을 일군 25년의 여정 동안 Google이 직면했던 중대한 기술적 과제를 시간순으로 기록하고 미래를 위한 지속적인 10가지 교훈을 정리하고 있습니다. 자료의 내용 중 2025년의 기술 리더와 비즈니스 리더에게 도움이 되는 세 가지 핵심 교훈을 소개합니다.

3가지 핵심 교훈

출시보다 안정적인 운영에 집중

WSC 여정에서 얻은 큰 교훈 중 하나는 서버나 소프트웨어가 아닌 성과 측정 방식의 중요성입니다. 조직은 세간의 이목을 끄는 제품 공개나 발표 같은 출시에만 치중하는 경우가 많습니다. 하지만 진정으로 중요한 것은 실제 안정적인 운영 및 가치 실현 단계입니다. 즉, 사용자와 고객에게 실질적이고 측정 가능한 영향을 미쳐야 합니다.

따라서 새로운 제품이나 기술의 안정적인 운영을 위해 무엇을 해야 할지 훨씬 더 주목해야 합니다. 성공적인 운영을 측정하는 지표를 선정하기란 쉽지 않지만, 프로젝트 초기에 이 결정을 내릴 수 있어야 성공을 보장할 수 있습니다. 결국 이것이 프로젝트의 '존재 이유'이기 때문입니다.

WSC의 복잡성과 규모가 끊임없이 커지면서 적절한 목표를 선택하고 제대로 측정하는 것이 더욱 중요해졌습니다. 리더들은 성능, 비용 효과, 안정성, 관리 효율성, 보안과 관련된 니즈를 통합하면서 수차례에 걸쳐 설계를 거듭하여 WSC를 발전시켰습니다. 우선순위가 많은 상황에서는 팀이 출시에만 매달리다 핵심 결과는 놓치기 쉽습니다. 명확하게 정의된 결과, 즉 안정적인 운영과 가치 실현에 맞춰 팀의 방향을 잡으면 변화하는 기술 환경에 계속 적응할 수 있습니다.

실현 가능한 목표, 루프샷(Roofshot)의 힘

기술자에게 10배의 이득을 달성할 방안을 질문하면 대담한 목표인 문샷(Moonshot), 즉 성능의 비약적인 도약으로 이어지는 급진적 재창조를 이야기할지도 모릅니다. Google은 자율 주행 자동차(Waymo)부터 인터넷 신호를 전송하는 풍선(Loon), 배송 드론(Wing)에 이르기까지 야심 찬 문샷 프로젝트에 참여한 전력이 있습니다. 이러한 노력은 기술의 한계를 뛰어넘고 혁신을 추구하는 Google의 신념을 반영합니다. 이처럼 문샷도 그 의미가 있지만 루프샷 역시 간과해서는 안 될 또 다른 효과적인 접근 방식입니다.

지난 25년간 Google에서는 여러 차례의 중대한 개선을 이뤄냈으며, 그중 상당수는 1.3~2배 수준의 작지만 지속적인 기회를 끊임없이 추구한 루프샷의 결과였습니다. 이처럼 루프샷이 반복되면 결국에는 신속한 투자비 회수와 지속적이고 혁신적인 결과를 얻을 수 있습니다.

한 번에 한 계단씩 높은 목표를 향해 올라가는 꾸준하고 점진적인 발전을 추구한다는 철학입니다. 에너지 효율성, 서버 사용률, 비용 절감 등에서 Google이 거둔 혁신도 루프샷의 결과였습니다. 시간이 지남에 따라 누적된 발전은 WSC의 역량을 완전히 재정의하기에 이르렀습니다. 이제는 고인이 된Luiz Barroso의 말처럼 '지붕에 오르기로 선택하는 이유는 멋있어서가 아니라 거기에 지붕이 있기 때문입니다.'

보안의 중요성

아마도 Google의 WSC 여정에서 가장 시급하게 적용해야 할 교훈은 보안의 절대적인 중요성입니다. WSC가 글로벌 기술 인프라의 기본 요소가 됨에 따라 그 어느 때보다 정교한 적의 집요한 공격 대상이 되었습니다.

국가적 차원의 공격자에 대응하려면 훨씬 더 심층적인 방어 조치가 필요합니다. 서버는 펌웨어와 운영체제를 검증하고 보호하기 위해 안전하고 독립적인 신뢰할 수 있는 실리콘 루트를 갖춰야 합니다. 모든 데이터를 암호화해야 하며, 시스템은 제로 트러스트를 전제로 해야 합니다. 중요한 작업이나 액세스에는 다자간 승인을 요구하고, 모든 프로덕션 코드는 검토를 거쳐 출처를 검증해야 합니다. 고도로 숙련된 레드팀에서 물리적 보안을 비롯한 방어를 정기적으로 테스트해야 합니다. 오늘날 보안을 등한시하면 위험에 처할 수 있습니다. 편집광만이 살아남는다는 유명한 책 제목처럼 항상 경계해야 합니다.

WSC가 사회 인프라에 점점 더 깊숙이 연관됨에 따라 오픈소스 하드웨어와 소프트웨어의 투명성은 보안을 위한 필수 요소가 될 것입니다. 오픈소스 아키텍처는 광범위한 커뮤니티 검토와 협업을 지원함으로써 취약점을 발견하고 권장사항을 전파하는 데 도움이 됩니다. Google이 Titan과 같은 오픈소스 신뢰할 수 있는 실리콘 루트 설계와 Open Compute Project 같은 조직을 지원하는 이유도 바로 이 때문입니다.

앞으로 보안의 중요성은 더욱 커질 전망입니다. 지정학적 갈등으로 인해 데이터 주권 및 저장 위치에 관한 새로운 요구사항이 생겨나고 있습니다. 기본 시스템의 무결성에 대한 신뢰가 가장 중요해지며, 현실과 디지털 세계가 더욱 밀접하게 연결되면서 미래에는 공장 로봇에서 자율 주행 차량에 이르기까지 모든 것이 보안의 대상이 될 것입니다.

앞으로의 방향

AI/ML이 삶에서 점점 중요해지면서 필요한 컴퓨팅의 규모는 계속 커질 가능성이 높습니다. WSC 분야에서 혁신을 위한 과제와 기회 역시 늘어나고 있습니다. 점점 발전하는 AI가 머지않아 WSC 자체의 설계에도 도움을 줄 수 있게 되면 기술적으로 완전히 새로운 지평이 열릴 것입니다.

하지만 이 모든 기술의 발전 속에서도 25년간 Google의 WSC 여정에서 얻은 세 가지 교훈, 즉 (1) 성공하기 위해서는 명확한 목표를 끝까지 추구해야 한다(출시가 아닌 안착이 중요), (2) 운영 탁월성과 점진적인 개선을 끊임없이 추구하면 큰 성과를 거둘 수 있다, (3) 보안에 집중하지 않으면 다른 것은 모두 소용이 없어진다는 교훈만큼은 변함이 없습니다.

25년 전에 단순한 개념이었던 웨어하우스 규모의 컴퓨팅은 놀라운 발전 과정을 거쳐 사회의 기반으로 자리 잡았습니다. WSC에는 아직도 더 많은 발전 가능성이 있습니다. 지난 25년과 마찬가지로 앞으로의 25년 동안에도 놀라운 일들이 펼쳐질 것입니다.

게시 위치