Google Cloud의 혁신 중심 인프라
Sachin Gupta
Vice President & GM, Infrastructure, Google Cloud
오늘날 여러 조직들은 핵심 프로세스를 더 효율적으로 만드는 일부터 고객에게 도달해 더 나은 서비스를 제공하기 위한 방법을 개선하고, 혁신의 거름이 되는 데이터에서 유용한 정보를 도출하기까지 클라우드를 사용해 목표 달성을 위한 새로운 방법을 개발하여 비즈니스의 완전한 혁신을 추구하고 있습니다.
클라우드 인프라는 모든 조직의 혁신 전략에서 핵심적인 부분을 차지합니다. Google Cloud의 주요 기능을 활용해 혁신할 수 있는 기회는 무궁무진합니다. 이러한 기능은 Google Cloud에서 솔루션을 빠르고 간단하게 빌드하는 역량에 장기적인 영향을 미칠 것입니다. Google은 데이터 관리와 머신러닝부터 보안, 지속 가능성에 이르기까지 기초로부터 가치를 창출하는 인프라 혁신에 집중적인 투자를 이어가고 있습니다. Google은 고객이 혁신을 통해 비즈니스 속도를 높일 수 있도록 인프라의 3가지 무척 중요한 속성에 초점을 맞추고 있습니다.
최적화: 고객은 구체적인 니즈를 충족하는 솔루션을 원합니다. 일반적인 워크로드, 업계 솔루션은 물론 고성능, 비용 절감, 성능과 비용의 균형 등의 특정한 결과에 따라 맞춤설정된 앱을 필요한 곳에서 빌드하고 실행하기를 원하는 것입니다. 고객의 워크로드가 Google Cloud에서 더 잘 실행되어야 하는 이유입니다.
혁신: 혁신은 비용 절감 및 편의를 위해 인프라를 클라우드로 '리프트 앤 시프트'하는 것만을 의미하지 않습니다. 혁신적인 인프라는 Google 최고의 AI 및 ML 기능을 통합하여 혁신을 가속화하면서도 가장 엄격한 보안, 주권, 규정 준수 요구사항을 충족합니다.
사용 편의성: 클라우드 플랫폼의 용도가 다양해지면 채택과 운영이 매우 복잡해질 수 있습니다. 하지만 사용하기 쉬운 클라우드 플랫폼으로 운영 부담을 줄일 수 있습니다. 종종 고객들이 Google Cloud에서는 복잡한 업무가 단순하게 느껴진다고 이야기하는데, 이는 사용 편의성을 염두에 두고 제작했기 때문입니다.
고객에게 가장 중요한 가치에 맞춰 최적화된 솔루션
가격 대비 성능 최적화부터 살펴보겠습니다. 작년에 Google은 수평 확장 워크로드의 비용 효율적인 성능에 최적화된 Tau VM을 출시했습니다. Tau T2D는 다른 주요 클라우드의 동급 VM에 비해 최대 42% 높은 가격 대비 성능을 제공하면서 성능과 총 소유 비용 측면에서 다른 모든 주요 퍼블릭 클라우드 제공업체를 뛰어넘었습니다.
오늘 Google은 Tau VM 제품군에 Arm 기반 머신을 추가하여 고객에게 더 많은 선택권을 제공한다는 소식을 발표했습니다. Ampere® Altra® Arm 기반 프로세서로 구동되는 T2A VM은 합리적인 가격에 우수한 단일 스레드 성능을 제공하여 수평 확장 클라우드 기반 워크로드에 이상적입니다. 이제 개발자는 워크로드를 테스트, 개발, 실행하는 데 최적의 아키텍처를 선택할 수 있게 되었습니다.
비용 최적화는 많은 Google 고객의 주요 목표입니다. 스팟 VM을 사용하면 파격적인 할인이 적용되는 유휴 머신 주기를 활용하여 주문형 가격에서 60% 보장 할인 및 최대 91% 할인을 받을 수 있습니다. 스팟 VM은 고성능 컴퓨팅, 빅데이터, 분석 부문의 일괄 작업과 내결함성 워크로드에 이상적입니다. 스팟 VM 가격의 변동성을 줄이고 예측 가능성을 높여달라는 고객 의견이 많이 접수되었습니다. Google은 고객 의견을 경청하여 가격에 반영했습니다. 그 결과, Google의 스팟 VM은 다른 주요 클라우드에 비해 가장 낮은 가격 변동성(가격 변동 월 1회)과 보다 높은 예측 가능성을 제공하고 있습니다.
글로벌 규모에 맞춘 최적화는 동영상 스트리밍을 비롯하여 오늘날 소비자의 까다로운 요구사항을 충족시키는 데 매우 중요합니다. 2022년 5월에 출시된 Media CDN은 몰입형 동영상 스트리밍 경험을 글로벌 규모로 제공하도록 최적화되었습니다. 1,300개가 넘는 도시에서 지원되는 Media CDN은 YouTube가 전 세계 20억 명 이상의 사용자에게 콘텐츠를 제공하기 위해 사용하는 것과 동일한 인프라를 활용합니다. U-NEXT, Stan 등의 고객이 Media CDN을 빠르게 도입하여 시청자들에게 최신 고품질 경험을 제공하고 있습니다.
분산 시스템 및 분산 작업자가 증가하고 필요한 곳 어디에서나 앱을 빌드하고 실행할 수 있게 되면서 또 다른 새로운 기회가 생겼습니다. 이제 Google Distributed Cloud로 Google Cloud 인프라 및 서비스를 온프레미스, 코로케이션 데이터 센터, 다양한 에지 환경 등을 포함한 여러 물리적 위치(또는 분산 환경)로 확장할 수 있게 되었습니다. Anthos가 모든 Google Distributed Cloud 제품 및 서비스를 지원하여 사용자가 선택하는 어떤 위치에서든 컨테이너화된 최신 애플리케이션을 빌드, 배포, 실행할 수 있는 공통 제어 영역을 제공합니다.
선택의 폭을 넓히기 위해 Google은 Google Distributed Cloud를 워크로드 및 사용 사례의 특정 요구사항을 해결하기 위한 여러 제품이 포함된 하드웨어, 소프트웨어, 서비스로 구성된 포트폴리오로 설계했습니다. 에지, 가상, 호스팅 제품 중에서 비즈니스 요구사항에 맞는 제품을 선택할 수 있습니다.
AI/ML 및 보안을 통한 혁신 주도
머신러닝 분야의 혁신 속도가 계속해서 빨라지고 있으며 Google은 오랫동안 이 분야에서 선구자 역할을 했습니다. Google 검색부터 YouTube, Google Play, Google 지도에 이르기까지 Google 제품이 최상의 가치를 제공하는 데 ML이 도움을 주었습니다. Google은 최고의 Google 기능을 고객에게 제공하기 위해 노력을 기울여 왔으며 JAX와 Cloud TPU v4는 이를 방증하는 좋은 예시입니다.
JAX는 Google 연구팀이 개발한 첨단 오프소스 ML 프레임워크입니다. 이 프레임워크는 ML 실무자에게 더 많은 유연성을 제공하여 모델을 최대 규모로 보다 손쉽게 확장할 수 있도록 설계되었습니다.
최근에는 새로운 ML 허브를 통해 모든 고객에게 Cloud TPU v4 포드를 제공하고 있습니다. Cloud TPU v4 포드 클러스터는 9엑사플롭스급의 최고 집계 성능을 제공하며 90%의 무탄소 에너지로 운영됩니다. 전 세계에서 가장 빠르고 효율적이며 지속 가능한 ML 인프라 허브 중 하나입니다. 연구원들은 Cloud TPU v4를 사용해 자연어 처리 모델과 추천자 모델을 비롯한 여러 정교한 모델을 학습시킬 수 있습니다. Cohere는 학습 시간이 70% 개선되었고 LG Research에서는 Cloud TPU v4를 사용해 대규모 멀티모달 3,000억 매개변수 모델을 학습시키는 등 많은 고객이 이미 그 혜택을 누리고 있습니다.
보안 측면에서는, 사이버 보안 위협이 증가함에 따라 모든 기업이 보안 태세를 재고하고 있습니다. Google은 안전하고 성능이 우수하며 안정적인 세계적 규모의 네트워크에 투자하는 한편 고객이 소프트웨어 공급망을 보다 안전하게 보호할 수 있도록 업계 전반의 프레임워크 및 표준을 정의하는 데 앞장서고 있습니다. 작년 Google에서는 SLSA(Supply-chain Levels for Software Artifacts)를 도입했습니다. SLSA는 소프트웨어 공급망 전반에서 아티팩트의 무결성을 보장하는 엔드 투 엔드 프레임워크이자 Google 내부에서 구현 중인 여러 프로세스의 오픈소스 버전입니다.
Google은 복잡한 구성이나 성능 저하 없이 보안을 실현하는 데 도전하고 있습니다. 이러한 노력의 일례로 컨피덴셜 VM을 들 수 있습니다. 컨피덴셜 VM의 경우 외부에서는 디버거를 사용하더라도 VM에서 수행되는 데이터나 작업을 볼 수 없는 신뢰할 수 있는 실행 환경에 데이터가 저장됩니다. 또 다른 예로는 Cloud Intrusion Detection System(Cloud IDS)이 있습니다. 이 제품은 ML 기반 위협 분석을 토대로 한 네트워크 위협 감지를 제공하며 매일 430만 개의 고유한 보안 업데이트를 통해 새로운 위협을 식별하기 위하여 하루 15조 개가 넘는 트랜잭션을 처리합니다. CyberRatings.org에서 가장 높은 평점인 AAA를 받은 Cloud IDS는 거의 모든 방어 회피를 차단하는 효과를 입증했습니다.
개발자 중심의 사용 편의성
Google은 고객이 혁신을 가속화할 수 있도록 사용하기 쉬운 도구로 혁신 여정을 간소화하는 데 우선순위를 두고 있습니다. 오늘 Google에서는 Batch 미리보기 버전을 선보입니다. 이 완전 관리형 작업 스케줄러는 고객이 단일 명령어로 수천 개의 일괄 작업을 실행하도록 지원합니다. 간단하게 설정할 수 있으며 요구 사항이 까다로운 MPI 라이브러리를 비롯한 처리량 지향 워크로드를 지원합니다. 작업이 자동 확장 가능한 리소스에서 실행되므로 개발자에게 가장 중요한 작업을 처리할 수 있는 시간 여유가 생깁니다. 이에 따라 유전체 염기서열 분석, 미디어 렌더링, 금융 리스크 모델링, 전자 설계 자동화 등의 HPC, AI/ML, 데이터 처리 워크로드를 실행하는 개발자 환경이 개선됩니다.
계속해서 더욱 쉽게 혁신을 이룰 수 있도록 최근에는 새로운 HPC Toolkit의 출시를 발표했습니다. Google Cloud의 이 오픈소스 도구를 사용하면 입증된 권장사항에 따라 반복 가능하고 즉시 사용이 가능한 HPC 클러스터를 몇 분 만에 간편하게 만들 수 있습니다. 여러 청사진은 물론 Slurm 스케줄러, Intel DAOS, DDN Lustre 스토리지와 같은 서드 파티 구성요소에 대한 폭넓은 지원도 제공합니다.
시스템 성능 및 인프라가 수행하는 작업에 대한 이해는 보안과 밀접한 관련이 있지만, 이를 잘 수행하려면 사용하기 쉬워야 합니다. Google에서 최근에 선보인 네트워크 분석기는 고객이 사후 대응 워크플로를 사전 예방 프로세스로 변환하고 VPC 네트워크 구성을 자동으로 모니터링하여 네트워크 및 서비스 다운타임을 줄이도록 도와줍니다. Network Intelligence Center의 일부인 네트워크 분석기는 Google Cloud 네트워크 관측 가능성, 모니터링, 문제 해결을 위한 단일 콘솔을 제공합니다.
지금까지 소개한 내용은 고객이 손쉽고 혁신적이며 최적화된 플랫폼에서 안전하게 혁신하고 온프레미스에서 에지, 클라우드로 확장할 수 있는 인프라를 제공하기 위한 Google Cloud의 노력을 보여주는 일부 사례에 불과합니다. Broadcom 및 Snap과 같은 고객이 Google Cloud의 유연한 인프라를 사용하여 어떻게 가장 큰 난관을 해결하고 있는지 자세히 알아보려면 오늘 방송되는 Infrastructure Spotlight 이벤트를 시청하세요.