콘텐츠로 이동하기
네트워킹

속도, 규모, 안정성: 25년간 발전해 온 Google 데이터 센터 네트워킹

2025년 1월 16일
https://storage.googleapis.com/gweb-cloudblog-publish/images/25_years.max-2500x2500.jpg
Amin Vahdat

VP/GM, Machine Learning, Systems, and Cloud AI, Google Cloud

영업 대표 연락하기

귀하의 클라우드에 대한 이슈를 전문 영업 대표를 통해 논의해보세요.

연락하기

* 본 아티클의 원문은 2024년 10월 31일 Google Cloud 블로그(영문)에 게재되었습니다. 

 

로마는 하루아침에 이루어지지 않았습니다. Google 네트워크도 마찬가지입니다. 25년의 세월 동안 Google Cloud 아주 놀라울 정도로 규모와 기술적인 정교함을 갖춘 네트워크 인프라를 빌드했습니다.

Google 네트워크 인프라가 초기에는 비교적 단순했기 때문에 더욱 놀라운 발전이라고 있습니다. 하지만 사용자층과 서비스 수요가 급증하면서 전례 없는 규모의 데이터와 트래픽을 처리할 있고 시간이 지나면서 변화하는 워크로드에 따라 동적 트래픽 패턴에 적응할 있는 네트워크가 필요하다는 깨달았습니다. 이는 수많은 엔지니어링 혁신과 획기적인 발전을 수놓아 25년간의 여정의 원동력이 되었으며, 궁극적으로 초당 13페타비트의 바이섹션 대역폭으로 확장할 있는 현재의 5세대 Jupiter 데이터 센터 네트워크 아키텍처로 이어지는 성과를 이루었습니다. 데이터 속도는 네트워크를 통해 세계 인구 80 명이 동시에 1.5Mbps 영상 통화를 있는 수준입니다

현재 Google Cloud 세계에 수백 개의 Jupiter 패브릭을 배포했으며 동시에 수백 개의 서비스, 수십억 명의 일일 활성 사용자, Google Cloud 모든 고객, 세계 최대 규모의 머신러닝 학습 서빙 인프라를 지원하고 있습니다. 차세대 데이터 센터 네트워크 인프라를 살펴보면서 Google Cloud 여정에 대해 자세히 이야기해 보겠습니다.

기본 원칙

Google Cloud 네트워크는 다음의 가지 핵심 원칙에 기반하여 진화하였습니다.

  • 어디서나 무엇이든: Google Cloud 데이터 센터 네트워크는 동일한 네트워크 패브릭 내에서 10 이상의 서버 어디에나 대규모 작업을 배치하고 필요한 스토리지 지원 서비스에 빠르게 액세스할 있도록 함으로써 효율성과 단순성을 지원합니다. 이러한 규모는 애플리케이션의 내부 외부 워크로드 성능을 개선하고 내부 단편화 문제를 해소합니다

  • 예측 가능하고 짧은 지연 시간: 대역폭 여유 공간을 프로비저닝하고 99.999% 네트워크 가용성을 유지하며 엔드 호스트와 패브릭 협력을 통해 정체를 사전에 관리하여 일관된 성능을 우선으로 테일(tail) 지연 시간을 최소화합니다.

  • 소프트웨어 정의 시스템 중심: 유연성과 민첩성을 제공하는 소프트웨어 정의 네트워킹(SDN) 활용하여 전역 네트워크에서 격주로 수십 개의 새로운 기능을 검증하고 세계적으로 출시합니다.

  • 점진적 진화와 동적 토폴로지: 점진적 진화는 네트워크를 전면적으로 중지하는 대신 세부적으로 수정하는 도움이 되며, 동적 토폴로지는 변화하는 워크로드 수요에 지속적으로 적응하는 도움이 됩니다. 광회선 교환과 SDN 조합을 통해 물리적 인플레이스 업그레이드 단일 패브릭에서 여러 세대의 하드웨어와 호환되며 끊임없이 진화하는 이종 네트워크를 지원할 있습니다.

  • 트래픽 엔지니어링 애플리케이션 중심 서비스 품질(QoS): 트래픽 흐름을 최적화하고 서비스 품질을 보장하여 애플리케이션의 니즈에 맞게 네트워크를 조정할 있습니다.

Google Cloud 업무는 위의 원칙을 통합하는 데서 시작됩니다. 네트워크는 스토리지에서 AI까지 기타 모든 컴퓨팅 서비스에 안정성을 제공하는 기반입니다. 따라서 네트워크를 최대한 오래 안전하게 보호하고 장애 발생 영향을 최소화해야 합니다. 이러한 기본적인 책임을 수행하기 위해 Google Cloud 전역 네트워크의 수백 개의 클러스터와 수백만 개의 포트에서 발생하는 모든 일시적 오류1 엄격하게 정의하고 모니터링합니다. 자체 소프트웨어 정의 Jupiter 네트워크가 이전 버전의 데이터 센터 네트워크보다 50 높은 안정성 제공한다는 사실에서 있듯 Google Cloud 안정성은 진화하고 있습니다

2015 - Jupiter, 최초의 페타비트 네트워크 

Google Cloud 영향력 있는 논문에서 Jupiter 데이터 센터 네트워크가 상용 스위치 실리콘, Clos 토폴로지 소프트웨어 정의 네트워킹(SDN) 활용하여 총대역폭 1.3Pbps 확장될 있음을 소개했습니다. 세대의 Jupiter Google 네트워킹팀이 자체 개발한 5세대 데이터 센터 네트워크의 결정체입니다. 연구 당시 Google 데이터 센터 에서 측정된 데이터 전송 속도는 세계 인터넷에 대해 추정한 IP 트래픽 데이터 속도보다 빨랐습니다

2022 - 초당 6페타비트 지원

2022년에 Google Cloud 광회선 교환(OCS), 파장 분할 다중화(WDM), 확장성이 뛰어난 Orion SDN 컨트롤러가 긴밀히 통합되어 Jupiter 네트워크가 6Pbps 이상으로 확장되었다고 발표했습니다. 기술 덕분에 점진적인 네트워크 빌드, 성능 향상, 비용 절감, 전력 소비 절감, 동적 트래픽 관리, 원활한 업그레이드 다양한 발전을 이룰 있었습니다.

2023 - 초당 13페타비트 네트워크

Google 네트워크 코어에서 기본 400Gbps 링크 속도를 지원하도록 Jupiter 더욱 강화했습니다. Jupiter 네트워크의 기본 빌딩 블록(집계 블록이라고 ) 현재 엔드 호스트와 데이터 센터의 나머지 부분 모두에 대해 400Gbps 연결되는 포트 512개로 구성되며 블록당 양방향 비차단 대역폭이 204.8Tbps 집계됩니다. 이러한 블록을 64 지원하므로 바이섹션 대역폭은 64x204.8Tbps = 13.1Pbps입니다. 기술은 1 넘게 Google 프로덕션 데이터 센터를 구동하는 사용되고 있으며 AI, 머신러닝, 검색, 기타 데이터 집약적 애플리케이션의 급속한 발전을 이끌어 왔습니다.

2024 이후 - AI 시대를 위한 궁극의 네트워킹

20 이상 이어온 데이터 센터 네트워킹 분야의 혁신을 기념하면서 Google Cloud AI 시대를 준비하기 위해 차세대 네트워크 인프라의 방향을 계획하고 있습니다. 일례로, NVIDIA ConnectX-7 네트워킹이 탑재된 A3 Ultra VM 출시를 앞두고 관련 네트워킹 인프라 요구사항에 대해 작업 중입니다. 이는 RoCE(RDMA over Converged Ethernet) 통해 GPU 트래픽에 대해 서버당 3.2Tbps 비차단을 지원하고 Google Cloud에서 NVIDIA GB200 NVL72 기반으로 향후 제품을 제공할 있게끔 합니다.

Google Cloud 향후 동안 포트 단위 네트워크 전반에 걸쳐 네트워크의 규모와 대역폭을 크게 확장할 예정입니다. 또한 전송 정체 제어 스택과 같은 엔드 호스트 통합의 경계를 계속해서 확장하고 네트워크 단계를 간소화하여 더욱 엄격하게 테일 지연 시간을 단축하려고 합니다. 실시간 토폴로지 엔지니어링, 컴퓨팅 스택 스토리지 스택과의 보다 긴밀한 통합, 호스트 기반 부하 분산 기법의 지속적인 조정을 통해 네트워크 안정성을 강화하고 지연 시간을 줄일 있습니다. 이러한 혁신을 통해 Google Cloud 네트워크는 세계 사용자의 삶을 풍요롭게 하는 혁신적인 애플리케이션 서비스의 근간이 되는 동시에 Google Cloud 내부 서비스와 Google Cloud 제품을 구동하는 획기적인 AI 기능도 지원합니다.

앞으로 25 동안 Google 네트워킹에 펼쳐질 미래를 기대하며 이러한 도전과제와 기회를 받아들이고자 합니다.

추가 자료

  • Jupiter 성공: Google 데이터 센터 네트워크의 Clos 토폴로지와 중앙화된 제어 기술 10, SIGCOMM ‘15 [자료]

    • 상용 스위치 실리콘, Clos 토폴로지 소프트웨어 정의 네트워킹(SDN) 활용한 번째 Jupiter 데이터 센터 네트워크의 여정

    • 2012 프로덕션에 처음 배포됨

  • 아폴로 계획: 데이터 센터 규모로 광회선 교환 도입, arxiv.org, 2022 [자료]

    • 2013 프로덕션에 처음 배포됨

  • Orion: Google 소프트웨어 정의 네트워킹 컨트롤 플레인. NSDI ‘21 [자료]

    • 데이터 센터와 광역 통신망에 사용되는 Google 확장 가능한 의도 기반 고성능 분산 SDN 플랫폼

    • 2016 프로덕션에 처음 배포됨

  • Jupiter 발전: 광회선 교환과 소프트웨어 정의 네트워킹을 통한 Google 데이터 센터 네트워크 혁신, SIGCOMM ’22 [자료]

    • 배경 기술: OCS(2013), Orion SDN(2016), 200Gbps 네트워킹(2020), 직접 연결 토폴로지(2017), 동적 트래픽 엔지니어링(2018), 동적 토폴로지 엔지니어링(2021)

  • Swift: 데이터 센터 정체 제어에 간단하고 효과적인 지연, SIGCOMM ‘20 [자료]

    • Swift 하드웨어 타임스탬프와 지연 목표를 갖춘 AIMD 제어를 사용하는 정체 제어 프로토콜로, 짧은 RPC에서는 흐름 완료 시간을 줄이고 RPC에서는 처리량을 증가시켜 Google 데이터 센터에서 뛰어난 성능을 제공함

    • 2017 프로덕션에 처음 배포됨

  • PLB: 네트워크 부하 분산에 간단하고 효과적인 정체 신호, SIGCOMM ‘22 [자료]

    • Protective Load Balancing(PLB) 네트워크 정체를 줄이고 혼잡한 연결 경로를 무작위로 변경하여 성능을 향상하는 단순하고 효과적인 호스트 기반 부하 분산 설계로, 패킷 재정렬을 최소화하기 위해 유휴 기간 후에 경로 변경을 선호함

    • 2020 프로덕션에 처음 배포됨


1. 데이터 센터 네트워크의 통계적으로 유의미한 상당수의 네트워크 흐름이 정의된 임곗값을 초과하여 완전히 또는 부분적으로 중단되는 시간입니다.

게시 위치