콘텐츠로 이동하기
DevOps & SRE

속도와 안정성 사이 균형을 이룬 DevOps Awards 수상자 Kakao Mobility

2023년 8월 2일
https://storage.googleapis.com/gweb-cloudblog-publish/images/Kakao_Mobility.max-2000x2000.png
Sean You

Chief Technology Officer, Kakao Mobility

*본 아티클의 원문은 2023년 8월 2일 Google Cloud 블로그(영문) 에 게재되었습니다.


한국에서 선도적인 모빌리티 서비스 제공업체인 Kakao Mobility는 모바일 내비게이션 서비스, 대중교통 정보 제공, 택시 호출 서비스, 대리 호출 서비스 등 다양한 서비스를 사용자 들에게 제공하고 있습니다. 이 블로그 게시물에서는 KakaoMobility가 2022 DevOps 어워즈에서 '안정성 저하 없는 속도 최적화' 상을 수상할 수 있었던 DevOps 성과를 집중 조명합니다. 수상 기업과 해당 기업에서 DORA 측정항목 및 권장사항을 사용하여 비즈니스를 성장시킨 방법을 자세히 알아보려면 여기에서 시작하세요.

Kakao Mobility는 고객들이 출퇴근 시간 등에 서비스를 집중적으로 사용한다는 것을 잘 알고 있기에 100% 업타임 SLA를 보장하기 위해 노력하고 있습니다. 실시간 교통 정보 모니터링과 결제 시스템부터 운전자 예약에 이르기까지 광범위한 서비스를 통합하고 지속적으로 확대하려면 필요에 따라 확장할 수 있는 클라우드 인프라가 필요합니다. 유연한 확장이 어려운 인프라 환경에서는 새로운 서비스와 기능 배포가 어려울 수 있으므로, 사용자에게 제공하는 서비스의 성능이 크게 저하될 수 있습니다.

시내 교통은 출퇴근 시간의 변동부터 예기치 못한 사고에 이르기까지 예측하기 어려운 특성이 있어, 사용자 트래픽이 급증하는 경우가 종종 발생하고 이로 인해 고객 경험이 저하될 수 있습니다. 가용성과 응답성의 감소가 소비자층의 불신과 이익 손실로 이어질 수 있음을 잘 알고 있기에 필요에 따라 확장할 수 있는 내결함성과 복원력이 우수한 시스템을 제공해야 합니다. Kakao Mobility에서는 네이티브 앱 환경에 다양한 교통 및 모빌리티 서비스를 통합하기 위해 API를 통해 서드 파티 플랫폼에 서비스를 제공합니다. 또한 서비스의 보안 상태를 유지하기 위해 API 복원력을 강화하는 한편 고객을 위해 100% SLA 목표를 달성하려는 노력을 기울이고 있습니다.

목표

시장점유율과 서비스 운영 국가를 늘리고 고객에게 새로운 기능과 서비스를 제공하면서도 사용자에게 가용성 높은 앱 경험을 제공하려면 복원력에 초점을 맞춰야 합니다. 통근하는 고객들이 제시간에 직장에 도착하려면 서비스 안정성이 중요합니다. 이에 따라 최악의 시나리오에서도 가용성을 유지할 수 있도록 멀티 클라우드 전략을 추구하고 있습니다. 

Kakao Mobility의 하이브리드 클라우드 전략에는 크게 세 가지 목표가 있습니다.

  1. 애플리케이션을 분리 및 현대화하여 Kubernetes 컨테이너와 마이크로서비스 통합
  2. 개발자 부담을 완화하면서 배포 수행 속도 개선
  3. 서비스의 가용성, 안정성, 성능 향상

속도와 안정성 개선

다단계 마이그레이션 프로세스는 멀티 클라우드 하이브리드 클라우드 아키텍처를 구축할 수 있도록 환경을 현대화하는 것에서 시작됩니다. 2021~2022년에 Kakao Mobility의 팀은 애플리케이션을 마이크로서비스로 재구조화하여 워크로드를 Google Cloud에서 성공적으로 구동하였으며, Anthos Service Mesh(ASM)를 API 조정 플랫폼으로 사용하기 시작했습니다. 클라우드 리소스의 탄력성과 확장성 덕분에 팀에서는 비용 효율적이고 안정적인 솔루션을 경험하고 있습니다.

2022년에는 플래그십 애플리케이션을 Google Cloud로 성공적으로 마이그레이션했습니다. Google Kubernetes Engine(GKE) 클러스터를 사용하여 구현한 덕분에 확장성과 안정성을 유지하고 있습니다. DevOps팀은 Google Cloud와 긴밀하게 협력하면서 기존 서비스를 현대화하여 온프레미스와 Google Cloud 간의 새로운 멀티 클라우드 전략을 지원하고 있습니다.

Kakao Mobility는 Anthos Service Mesh를 통해 게이트웨이를 배포하여 애플리케이션 전반에 걸쳐 트래픽의 인그레스와 이그레스를 제어하고 여러 GKE 클러스터에서 리소스를 분리합니다. API는 서드 파티 오프라인 애플리케이션을 비롯해 안정적이고 확장 가능한 사용자 서비스를 제공하는 데 중요한 역할을 합니다.
Google Cloud 이벤트 관리 서비스(EMS)는 한국 명절이나 크리스마스 연휴, 새해 전야와 같이 트래픽이 급증할 것으로 예상되는 주요 시즌 이벤트 때 안정성과 가용성을 확보할 수 있도록 도와줍니다. Google Cloud팀과의 긴밀한 협력은 인프라를 강화하여 이벤트 전반에서 안정성을 유지하는 것뿐만 아니라 만일의 사태에 대비할 수 있도록 시뮬레이션과 모의 훈련을 실행하는 데도 도움이 됩니다.

고객 중심의 설계

Anthos Service Mesh 덕분에 Kakao Mobility는 IT 환경을 현대화하고 클라우드 보안을 강화했으며, 앞으로 더 많은 Google Cloud 서비스를 도입할 계획입니다. 

포드(Pod) 확장 시간은 더 이상 배포 시간에 포함되지 않습니다. 포드(Pod) 가 모두 시작한뒤에 배포 관리자는 그때부터 트래픽 제어로만 배포를 수행합니다. 배포 관리자는 원하는 만큼의 트래픽을 새 버전으로 전달하고 충분한 시간을 두고 검증할 수 있으며, 핫픽스 배포가 필요한 경우 10초 이내에 트래픽 전환으로 배포를 완료합니다. 실제 사례에서도 긴급한 배포가 필요한 경우 새로운 버전의 포드(노드 포함)를 프로비저닝하는 데 걸리는 시간은 약 10분에 불과했고, 그 10분 동안 트래픽을 안정적으로 처리했습니다.

이제 개발자팀은 API 액세스에 대한 보안을 강화하고 Anthos Service Mesh를 통해 트래픽을 허용 목록에 추가하여 통근 시간에 업무 부담이 몰리지 않도록 합니다. 전체 서비스를 담당하는 개발팀이 운영하는 마이크로서비스는 ASM을 구현하면서 2개에서 9개로 무려 450% 증가했습니다.

어떻게 조직 내부의 지속적인 개선에 집중해야 하는지 알려준 DORA 연구가 없었다면 이 가운데 무엇도 해낼 수 없었을 것입니다. 이 프로젝트가 항상 성공적인 과정을 거친 것은 아니지만, 실패를 겪을 때도 고객에게 보다 효과적이고 효율적으로 서비스를 제공하기 위해 향후 어떤 부분에 집중해야 하는지 세밀하게 파악할 수 있었습니다.

DevOps Award 수상 기업을 하이라이트하는 나머지 시리즈와 함께 2022 State of DevOps 보고서를 읽고 DORA 연구에 대해 자세히 알아보세요.

게시 위치