최대 트래픽 및 출시 이벤트 계획

Last reviewed 2023-06-25 UTC

Google Cloud 아키텍처 프레임워크의 이 문서에서에서는 비즈니스 중단을 방지하기 위해 최대 트래픽을 계획하고 이벤트를 시작하는 방법을 보여줍니다.

피크 이벤트는 애플리케이션의 표준 기준을 초과하는 급격한 트래픽 증가를 유발하는 주요 비즈니스 관련 이벤트입니다. 이러한 피크 이벤트를 위해 계획된 확장이 필요합니다.

예를 들어 온라인 상점을 보유한 소매업 비즈니스는 연말연시 중에 피크 이벤트가 발생할 수 있습니다. 미국에서 추수감사절 다음 날부터 시작되는 블랙 프라이데이는 일 년 중 가장 많은 쇼핑이 이루어지는 성수기 중 하나입니다. 미국 내 의료 업계의 경우 10월과 11월의 의료 보험 등록 관련 온라인 트래픽이 급증하면서 최대 트래픽이 발생할 수 있습니다.

출시 이벤트는 대대적 출시 또는 프로덕션의 신기능 마이그레이션을 의미합니다. 예를 들어 온프레미스에서 클라우드로 마이그레이션하거나 새로운 제품 서비스 또는 기능을 출시합니다.

신제품을 출시하는 경우 발표 도중과 그 이후에 시스템 부하가 증가할 것으로 예상해야 합니다. 이러한 이벤트로 인해 프런트엔드 시스템의 부하가 5~20배 이상 증가할 수 있습니다. 이 같은 부하로 인해 백엔드 시스템의 부하도 늘어납니다. 이러한 프런트엔드 및 백엔드 부하의 경우 이벤트가 열리면 웹 트래픽이 단시간 내에 빠르게 확장되는 특성이 있습니다. 출시 이벤트에서는 트래픽이 점차 정상 수준으로 감소합니다. 하락 속도는 일반적으로 상승 속도보다 느립니다.

피크 이벤트 및 출시 이벤트에는 3가지 단계가 포함됩니다.

  • 출시 또는 최대 트래픽 이벤트의 계획 및 준비
  • 이벤트 출시
  • 이벤트 성과 및 이벤트 후 분석 검토

이 문서에 설명된 방법이 각 단계를 원활하게 실행하는 데 도움이 될 수 있습니다.

출시 및 피크 이벤트를 위한 일반 플레이북 만들기

현재 및 미래의 피크 이벤트에 대한 장기적인 관점으로 일반 플레이북을 작성합니다. 이후 피크 이벤트에 대한 참조가 될 수 있도록 문서에 학습한 내용을 계속 추가합니다.

출시 및 피크 이벤트 계획

미리 계획하세요. 예정된 출시 및 예상된(또는 예기치 않은) 피크 이벤트에 대한 비즈니스 예측을 만듭니다. 확장 급증에 대비한 시스템 준비는 비즈니스 예측을 이해하는 데 따라 달라집니다. 이전 예측으로부터 더 많은 정보를 알아낼수록 새로운 비즈니스 예측을 더 정확하게 수행할 수 있습니다. 이와 같은 새로운 예측 정보는 시스템에 예상되는 수요가 어느 정도인지를 판단하는 데에도 중요한 데이터입니다.

조직 전체 및 타사 공급업체와 함께 프로그램 관리 및 조율된 계획을 수립하는 것 역시 성공의 비결입니다. 프로그램 관리팀이 타임라인을 설정하고, 예산을 확보하고, 추가 인프라, 테스트 지원, 교육을 위한 리소스를 모을 수 있도록 이러한 팀을 초기에 구성하세요.

명확한 커뮤니케이션 채널을 설정하는 것이 중요합니다. 커뮤니케이션은 출시 또는 피크 이벤트의 모든 단계에서 중요합니다. 위험과 우려되는 부분을 미리 논의하고 문제가 심각한 장애물이 되기 전에 뜻을 모아 해결합니다. 이벤트 계획 문서를 만듭니다. 피크 이벤트에 대한 가장 중요한 정보를 간추려 배포합니다. 이렇게 하면 사람들이 계획 정보를 이해하고 기본적인 질문을 해결하는 데 도움이 됩니다. 이 문서는 새로 참여한 사람이 피크 이벤트 계획을 숙지할 수 있게 하는 데 도움이 됩니다.

각 이벤트의 계획을 문서화합니다. 계획을 문서화할 때 다음을 수행해야 합니다.

  • 가정, 위험, 알 수 없는 요소를 파악합니다.
  • 과거 이벤트를 검토하여 예정된 출시 또는 피크 이벤트에 관련된 정보를 확인합니다. 사용 가능한 데이터와 해당 데이터가 과거에 어떠한 가치를 제공했는지 파악합니다.
  • 출시 및 마이그레이션 이벤트의 롤백 계획을 자세히 세웁니다.
  • 아키텍처 검토를 수행합니다.
    • 핵심 리소스 및 아키텍처 구성요소를 문서화합니다.
    • 아키텍처 프레임워크를 사용하여 환경의 모든 측면에서 위험과 확장 문제를 검토합니다.
    • 아키텍처의 주요 구성요소가 연결되는 방식을 보여주는 다이어그램을 만듭니다. 다이어그램을 검토하면 문제를 격리하고 해결 속도를 높이는 데 도움이 될 수 있습니다.
  • 해당되는 경우 실패 시 자동 다시 시작을 수행하도록 알림 작업을 사용하도록 서비스를 구성합니다. Compute Engine을 사용할 때는 처리량 급증 처리를 위해 자동 확장을 사용하는 것이 좋습니다.
  • 필요할 때 Compute Engine 리소스를 사용할 수 있게 하려면 예약을 사용합니다. 예약을 사용하면 매우 높은 수준의 확신으로 Compute Engine 영역별 리소스의 용량을 확보할 수 있습니다. 예약을 사용하면 프로젝트에 사용 가능한 리소스가 있는지 확인할 수 있습니다.
  • 추적할 측정항목과 알림을 파악합니다.
    • 이벤트에서 모니터링할 비즈니스 및 시스템 측정항목을 파악합니다. 측정항목 또는 서비스 수준 지표(SLI)를 수집하지 않는 경우 이 데이터를 수집하도록 시스템을 수정합니다.
    • 모니터링 및 알림 기능이 충분한지, 정상 및 이전 최대 트래픽 패턴을 검토했는지 확인합니다. 알림이 적절하게 설정되어 있는지 확인합니다. Google Cloud Monitoring 도구를 사용하여 애플리케이션 사용량, 용량, 애플리케이션과 인프라의 전체 상태를 봅니다.
    • 관심 모니터링 및 알림 수준으로 시스템 측정항목이 캡처되고 있는지 확인합니다.
  • Google Cloud 계정팀과 함께 증가한 용량 요구사항을 검토하고 필요한 할당량 관리를 계획합니다. 자세한 내용은 할당량이 용량 요구사항과 일치하는지 확인을 확인하세요.
  • 적절한 클라우드 지원 수준이 마련되어 있는지, 팀이 지원 케이스를 여는 방법을 이해하고 있는지, 에스컬레이션 경로가 설정되어 있는지 확인합니다. 자세한 내용은 클라우드 지원 및 에스컬레이션 프로세스 설정을 참조하세요.
  • 커뮤니케이션과 관련한 계획, 일정, 책임을 정의하세요.
    • 여러 부서의 이해 관계자와 협력하여 커뮤니케이션 및 프로그램 계획을 조정합니다. 이러한 이해관계자에는 기술, 운영, 리더십 팀과 타사 공급업체의 적절한 인력이 포함될 수 있습니다.
    • 중요한 작업과 해당 작업의 담당팀이 포함된 명확한 타임라인을 설정합니다.
    • 팀, 팀 리더, 관계자, 책임자의 소유권을 알리는 책임 할당 매트릭스(RACI)를 설정합니다.
    • 계획된 피크 이벤트에 프리미엄 지원의 이벤트 관리 서비스를 사용할 수 있습니다. 이 서비스를 사용하면 고객 관리 파트너가 팀과 협력하여 계획을 세우고 이벤트 기간 동안 안내를 제공합니다.

검토 프로세스 구축

최대 트래픽 이벤트 또는 출시 이벤트가 끝나면 이벤트를 검토하여 학습한 내용을 문서화합니다. 그런 다음 해당 내용으로 플레이북을 업데이트합니다. 마지막으로 알게 된 내용을 다음 주요 이벤트에 적용합니다. 특히 부하가 걸렸을 때 시스템에 어떤 제약이 있었는지가 확연히 드러나는 경우 이전 이벤트로부터 배우는 것이 중요합니다.

최대 트래픽 이벤트 또는 출시 이벤트에 대한 소급 검토(사후 분석이라고도 함)은 데이터를 캡처하고 발생한 이슈를 이해하는 데 유용한 기법입니다. 예상대로 진행된 최대 트래픽 및 출시 이벤트와 문제가 발생한 이슈에 소급 검토를 수행합니다. 이 같은 검토를 진행할 때 비난 없는 문화를 조성합니다.

사후 분석에 대한 자세한 내용은 사후 분석 문화: 실패로부터 학습을 참조하세요.

다음 단계