GKE: 컨테이너에서 에이전트까지, 모든 최신 워크로드를 위한 통합 플랫폼
Drew Bradstock
Sr. Director of Product Management, Google Kubernetes Engine
* 본 아티클의 원문은 2025년 11월 12일 Google Cloud 블로그(영문)에 게재되었습니다.
지난 10년 동안 클라우드 네이티브 인프라는 컨테이너화와 마이크로서비스부터 생성형 AI의 부상에 이르기까지 끊임없는 변화를 겪어왔습니다. 이러한 모든 변화 속에서도 Kubernetes는 변함없이 애플리케이션과 인프라 모두에 안정적이고 통일된, 확장 가능한 운영 모델을 제공해 왔습니다.
올해로 10주년을 맞이한 GKE(Google Kubernetes Engine)와 Kubernetes의 공생 관계는 그 어느 때보다 중요해졌습니다. AI를 최대 규모로 처리하기 위한 Kubernetes의 수요가 증가함에 따라 Google은 Kubernetes의 핵심 기능을 강화하여 AI와 비AI 워크로드 모두를 한 단계 발전시키는 데 지속적으로 투자하고 있습니다. 올해 KubeCon 북미에서 Google Cloud는 다음과 같은 세 가지 포괄적인 접근 방식을 반영한 주요 발전 사항을 발표합니다.
-
차세대 워크로드를 위한 핵심 Kubernetes OSS 강화 - 보안, 거버넌스, 격리를 위한 새로운 Kubernetes 네이티브 AgentSandbox API를 통해 AI 에이전트의 물결을 선제적으로 지원합니다. 최근에는 Inference Gateway API 및 Inference Perf와 같은 추론 워크로드를 지원하는 기능들도 추가했습니다. 또한 Buffers API 및 HPA와 같은 기능은 모든 워크로드의 프로비저닝 지연 시간을 다각도로 해결하는 데 도움을 줍니다.
-
관리형 Kubernetes 우수성을 보여주는 참조 구현으로써의 GKE 제공 - Google Cloud는 새로운 기능과 모범 사례를 GKE에 지속적으로 도입하여 Google의 Kubernetes 전문 지식을 완전 관리형의 프로덕션 레디 플랫폼으로 전환하고 있습니다. 이를 통해 강력한 Google Cloud 서비스를 통합하고 비교할 수 없는 규모와 보안을 제공합니다. 우리는 새로운 GKE Agent Sandbox를 발표하게 되어 매우 기쁘게 생각하며 최근 GKE 커스텀 컴퓨팅 클래스, GKE Inference Gateway, GKE Inference Quickstart를 발표한 바 있습니다. 또한 대규모 컴퓨팅 수요를 충족하기 위해 130,000개 노드 클러스터 지원으로 확장성의 한계를 넓히고 있습니다. 올해 Google Cloud는 클러스터 상호 운용성과 이식성 표준으로 Kubernetes 상의 AI/ML을 간소화하는 새로운 CNCF Kubernetes AI Conformance 프로그램에 참여하게 되어 기쁩니다. GKE는 이미 AI 적합 플랫폼으로 인증을 받았습니다.
-
프레임워크 주도 및 운영 마찰 감소 - Google은 오픈소스 커뮤니티 및 파트너와 적극적으로 협력하여 Kubernetes 상의 Slurm 및 Ray를 비롯한 새로운 프레임워크에 대한 지원을 강화하고 있습니다. 최근 Google Cloud는 Anyscale과 협력하여 Anyscale Platform 및 Runtime을 갖춘 GKE용으로 최적화된 오픈소스 Ray를 발표했습니다. 최근에는 파트너들과 협력하여 대규모 고성능 LLM 추론을 위한 분산형 Kubernetes 네이티브 제어 플레인을 만드는 오픈소스 프로젝트인 llm-d의 창립 기여자로서 참여했습니다.
이제 이러한 발전 사항을 더 자세히 살펴보겠습니다.
AI 에이전트의 부상
AI 에이전트의 물결이 우리 앞에 다가왔습니다. PwC에 따르면 IT 부문 고위 리더의 79%가 이미 AI 에이전트를 도입하고 있으며, 88%는 에이전트형 AI로 인해 향후 12개월 동안 IT 예산을 늘릴 계획이라고 합니다.
Kubernetes는 이미 AI 에이전트를 대규모로 배포하고 관리하기 위한 견고한 기반을 제공하지만, 에이전트 AI 워크로드의 비결정적 특성은 인프라에 새로운 과제를 안겨줍니다. AI 에이전트는 코드를 작성하고, 컴퓨터 인터페이스를 제어하며, 수많은 도구를 호출하는 등의 능력을 갖추게 되면서 격리, 효율성, 거버넌스 측면에서 중요성이 그 어느 때보다 높아졌습니다.
Google Cloud는 Kubernetes의 기본 프리미티브를 발전시키는 동시에 GKE에서 실행되는 에이전트에 고성능과 컴퓨팅 효율성을 제공하여 이러한 과제를 해결하고 있습니다. 오늘 Google Cloud는 Kubernetes 네이티브 에이전트 코드 실행 및 컴퓨터 사용 환경을 위한 새로운 기능 모음인 Agent Sandbox를 프리뷰로 발표했습니다. 처음부터 오픈소스로 설계된 Agent Sandbox는 gVisor를 사용하여 에이전트 환경을 격리하므로 LLM이 생성한 코드를 실행하고 AI 에이전트와 상호작용할 수 있습니다.
더욱 안전하고 효율적인 관리형 경험을 위해 새로운 GKE Agent Sandbox는 통합 Sandbox snapshots, 컨테이너 최적화 컴퓨팅과 같은 내장 기능으로 이 기반을 강화합니다. Agent Sandbox는 완전히 격리된 에이전트 워크로드에 대해 1초 미만의 지연 시간을 제공하며 이는 콜드 스타트 대비 최대 90% 향상된 성능입니다. 자세한 내용은 GKE 기반 에이전트 성능 극대화 관련 상세 공지사항을 참조하세요.
AI 기가와트 시대를 위한 독보적인 확장성
'기가와트 AI 시대'라 불리는 지금, 파운데이션 모델 제작자들은 전례 없는 수준의 컴퓨팅 성능에 대한 수요를 주도하고 있습니다. 이에 Google Cloud는 실험 모드 스택에 대한 내부 테스트 결과,GKE를 사용하여 130,000개의 노드로 구성된, 현재까지 알려진 가장 큰 규모의 Kubernetes 클러스터를 구축했다는 소식을 전해드립니다.
Google Cloud는 긴밀하게 결합된 작업을 위한 단일 클러스터 확장성에 집중하는 동시에, 작업 샤딩(예: MultiKueue)을 위한 멀티 클러스터 오케스트레이션 기능을 개발하고 동적 용량 재할당을 위한 새로운 접근방식을 설계하고 있습니다. 이 모든 과정에서 AI 플랫폼 개발 및 확장을 간소화하기 위해 오픈소스 Kubernetes API를 확장하고 있습니다. Google Cloud는 대규모 AI를 지원하는 오픈소스 도구 생태계(예: Kueue, JobSet, etcd)에 대대적으로 투자하고 있으며, 최고의 성능과 안전성을 제공하기 위해 데이터 센터에 GKE 특화 통합(예: Spanner에서 GKE 컨트롤 플레인 실행)을 수행하고 있습니다. 마지막으로 하드웨어 장애와 저장된 체크포인트로부터의 느린 복구와 관련된 손실 시간을 줄여 대규모 AI 학습 작업의 효율성을 개선하도록 설계된 MTC(Multi-Tier Checkpointing) 솔루션을 오픈소스로 공개하게 되어 기쁩니다.
모든 워크로드를 위한 더 나은 컴퓨팅
Google Cloud가 지난 10년 동안 Kubernetes에 헌신해 온 이유는 모든 워크로드에 대해 Kubernetes의 접근성과 효율성을 높이기 위해서입니다. 하지만 수년 동안 한 가지 주요 과제가 남아 있었습니다. 오토스케일링을 사용할 때 새 노드를 프로비저닝하는 데 수 분이 걸려 대용량의 빠른 확장 애플리케이션에는 충분히 빠르지 않았다는 점입니다. 올해 Google Cloud는 가격과 성능을 최적화하면서 필요할 때 정확하게(near-real-time) 확장 가능한 컴퓨팅 용량을 거의 실시간으로 제공한다는 사명으로 다양한 개선사항을 도입하여 이러한 마찰을 정면으로 해결했습니다.
모두를 위한 Autopilot
Google Cloud는 GKE Autopilot을 위해 완전히 새롭게 설계된 오토스케일링 스택인 컨테이너 최적화 컴퓨팅 플랫폼을 도입했습니다. 권장 운영 모드인 Autopilot은 노드 인프라 관리 및 확장을 완전히 자동화하여 성능과 비용에 획기적인 영향을 미칩니다. LiveX AI의 공동 창립자인 Jia Li는 "LiveX AI는 GKE Autopilot을 통해 TCO를 50% 이상 절감하고 제품 출시 기간을 25% 단축했으며 운영 비용을 66% 절감했습니다."라고 말합니다. 또한 최근 Standard 클러스터용 Autopilot 컴퓨팅 클래스가 정식 버전으로 출시되어 더 많은 개발자가 워크로드별로 Autopilot을 도입하여 이러한 관리 부담 없는 경험을 누릴 수 있게 되었습니다.
모든 각도에서 프로비저닝 지연 시간 해결
Google은 더 빠른 동시 노드 풀 자동 프로비저닝을 도입하여 작업을 비동기화하고 고도로 병렬화했습니다. 이 간단한 변화는 이기종 워크로드의 클러스터 확장을 획기적으로 가속화하여 Google Cloud의 벤치마크에서 배포 지연 시간을 수십 배 개선했습니다. 또한 까다로운 스케일 업 요구사항을 위해 새로운 GKE Buffers API (OSS)를 사용하면 미리 프로비저닝된 준비된 노드의 버퍼를 요청하여 컴퓨팅 용량을 거의 즉시 사용할 수 있습니다. 노드가 준비되면 새로운 버전의 GKE 컨테이너 이미지 스트리밍을 통해 전체 컨테이너 이미지가 다운로드되기 전에 애플리케이션을 시작할 수 이씨어 대규모 AI/ML 및 데이터 처리 워크로드에 결정적인 속도 향상을 제공합니다.
중단 없는 오토스케일링을 통한 리소스 활용률 개선
속도에 대한 요구는 워크로드 수준의 확장으로 이어집니다.
-
이제 새 GKE Standard 클러스터에서 HPA 성능 프로필이 기본적으로 활성화됩니다. 이를 통해 최대 5,000개의 HPA 객체 지원 및 병렬 처리를 포함한 대규모 확장 개선 사항을 제공하여 더 빠르고 일관된 수평 확장이 가능합니다.
-
Google Cloud는 VPA with in-place pod resize의 프리뷰를 통해 수직 확장 시 중단 문제를 해결하고 있습니다. 이 기능을 통해 GKE는 포드(Pod)를 재생성할 필요 없이 컨테이너의 CPU 및 메모리 요청 크기를 자동으로 조정할 수 있습니다.
동적 하드웨어 효율성
마지막으로, 동적 효율성에 대한 Google Cloud의 노력은 하드웨어 활용률로 확장됩니다. GKE 사용자는 다음 기능에 액세스할 수 있습니다.
-
Google Axion 프로세서 기반의 새로운 N4A VM (현재 프리뷰 버전)과 5세대 AMD EPYC 프로세서 기반의 N4D VM (현재 GA) 두 서비스 모두 커스텀 머신 유형(CMT)을 지원하므로 워크로드에 맞는 크기의 노드를 생성할 수 있습니다.
-
새로운 GKE 커스텀 컴퓨팅 클래스를 사용하면 VM 인스턴스 유형의 우선순위 목록을 정의할 수 있어 수동 개입 없이 워크로드가 가장 최신의 가격 대비 성능이 뛰어난 옵션을 자동으로 사용할 수 있습니다.
AI 추론을 강화하는 플랫폼
생성형 AI 추론의 진정한 과제는 수십억 개의 토큰을 조직의 파산 없이 안정적으로, 빛의 속도로 제공하는 방법입니다.
웹 애플리케이션과 달리 LLM 서빙은 스테이트풀(stateful)이며 계산 집약적입니다. 이를 해결하기 위해 Google Cloud는 LLM 인식 라우팅을 위한 Gateway API Inference Extension, 가속기 및 HPA 확장 측정항목과 임곗값에 대한 정밀한 모델 성능 인사이트에 대한 벤치마킹 표준을 제공하는 Inference performance project, Kubernetes 내에서 포드 및 워크로드에 GPU, TPU 및 기타 기기의 할당 및 일정을 간소화하고 자동화하기 위한 Dynamic Resource Allocation(Intel 등과 협력하여 개발)을 포함하여 Kubernetes에 대한 광범위한 오픈소스 투자를 추진해 왔습니다. 또한 Red Hat 및 IBM과 함께 llm-d 프로젝트를 결성하여 'SOTA 아키텍처에 도달 시간'을 최적화하는 Kubernetes 네이티브 분산 추론 스택을 만들었습니다.
GKE 측면에서는 최근 AI 워크로드 서빙을 위한 Kubernetes 기반 솔루션인 GKE Inference Gateway의 정식 버전 출시를 발표했습니다. 두 가지 워크로드별 최적화가 제공됩니다.
-
LLM 인지 라우팅: 다중 턴(multi0turn) 채팅과 같은 애플리케이션을 위한 LLM 인지 라우팅은 요청을 동일한 가속기로 라우팅하여 캐시된 컨텍스트를 사용함으로써 지연 시간 급증을 방지합니다.
-
Disaggregated serving: '프리필(prefill)'(프롬프트 처리) 단계와 및 '디코드(decode)'(토큰 생성) 단계를 분리하여 각각 최적화된 머신 풀에서 실행합니다.
그 결과 GKE Inference Gateway는 다른 관리형 Kubernetes 서비스와 비교했을 때 최대 처리량에서 TTFT(Time-to-First-Token) 지연 시간을 최대 96% 줄이고 토큰 비용을 최대 25% 절감할 수 있게 되었습니다.
AI 추론 서버의 시작 지연 시간은 대규모 모델이 시작하는 데 수십 분이 걸리는 지속적인 과제입니다. 오늘 Google Cloud는 CPU 및 GPU 워크로드를 메모리 스냅샷에서 복원할 수 있도록 하여 시작 지연 시간을 획기적으로 개선하는 GKE Pod Snapshots을 소개합니다. GKE Pod Snapshots은 AI 추론 시작 시간을 최대 80%까지 단축하여 700억(70B)개의 파라미터 모델을 단 80초 만에, 80억(80B) 파라미터 모델을 단 16초 만에 로드합니다.
프로덕션 등급의 AI 인프라 배포에 대한 복잡성, 비용, 어려움을 이야기하지 않고는 추론에 대한 논의를 완료할 수 없습니다. GKE Inference Quickstart는 Google Cloud의 최신 가속기, 최신 오픈 모델, 추론 소프트웨어로 최신 상태를 유지하는 지속적이고 자동화된 벤치마킹 시스템을 제공합니다. 이러한 벤치마킹된 프로필을 사용하여 추론별 성능 측정지표를 검증, 구성, 배포, 모니터링하고 배포를 동적으로 미세 조정하는 데 드는 시간을 크게 절약할 수 있습니다. 이 데이터는 이 Colab 노트북에서 찾을 수 있습니다.
Kubernetes와 GKE의 다음 10년을 위하여
GKE가 지난 10년간의 기반 작업을 기념하는 가운데 Google은 미래를 선도하는 데 기여할 수 있게 되어 자랑스럽습니다. 이 미래는 우리 모두가 함께해야만 만들 수 있다는 사실을 알고 있습니다. 기여자 커뮤니티의 노력이 없었다면 Kubernetes는 오늘날의 위치에 도달하지 못했을 것입니다. 여기에는 기초가 되는 새로운 기능을 작성하는 구성원부터 프로젝트가 번창할 수 있도록 유지하는 데 필수적인 일상적인 작업, 즉 '장작을 패고 물을 긷는(chopping wood and carrying water)' 작업을 수행하는 구성원까지 모두 포함됩니다.
새로운 기능을 살펴보고, Ironwood TPU와 같은 흥미로운 발표에 대해 자세히 알아보고, 심층 세션에 참석하여 오픈소스 인프라의 미래를 함께 만드는 데 동참해 주시기 바랍니다.


