Google Cloud Well-Architected Framework의 운영 우수성 요소는 Google Cloud에서 워크로드를 효율적으로 운영하기 위한 권장사항을 제공합니다. 클라우드 운영 우수성은 가치, 성능, 보안, 안정성을 제공하는 클라우드 솔루션을 설계, 구현, 관리하는 것을 말합니다. 이 요소의 권장사항은 클라우드의 역동적이고 끊임없이 진화하는 요구사항을 충족하도록 워크로드를 지속적으로 개선하고 조정하는 데 도움이 됩니다.
운영 우수성의 핵심사항은 다음과 같은 사용자와 관련이 있습니다.
- 관리자 및 리더: 클라우드에서 운영 우수성을 수립하고 유지하며 클라우드 투자가 가치를 제공하고 비즈니스 목표를 지원하도록 하는 프레임워크입니다.
- 클라우드 운영팀: 이슈 및 문제를 관리하고, 용량을 계획하고, 성능을 최적화하고, 변경사항을 관리하는 방법을 안내합니다.
- 사이트 안정성 엔지니어 (SRE): 모니터링, 이슈 응답, 자동화 등 높은 수준의 서비스 안정성을 달성하는 데 도움이 되는 권장사항입니다.
- 클라우드 설계자 및 엔지니어: 솔루션이 운영 효율성과 확장성을 고려하여 설계될 수 있도록 설계 및 구현 단계의 운영 요구사항 및 권장사항
- DevOps팀: 더 빠르고 안정적인 소프트웨어 배포를 지원하는 자동화, CI/CD 파이프라인, 변경 관리에 관한 안내
운영 효율성을 높이려면 자동화, 조정, 데이터 기반 통계를 수용해야 합니다. 자동화는 번거로운 작업을 없애는 데 도움이 됩니다. 또한 반복적인 작업을 간소화하고 가드레일을 설정합니다. 조정을 통해 복잡한 프로세스를 조정할 수 있습니다. 데이터 기반 통계는 증거 기반 의사 결정을 가능하게 합니다. 이러한 관행을 사용하면 클라우드 운영을 최적화하고, 비용을 절감하고, 서비스 가용성을 개선하고, 보안을 강화할 수 있습니다.
클라우드 운영의 우수성은 클라우드 운영에 대한 기술적 숙련도를 넘어섭니다. 여기에는 지속적인 학습과 실험을 장려하는 문화적 변화가 포함됩니다. 팀은 혁신하고 반복하며 성장 마인드를 채택할 수 있어야 합니다. 운영 우수성 문화는 개인이 아이디어를 공유하고 가정된 사실에 의문을 제기하며 개선을 유도하도록 장려하는 공동작업 환경을 조성합니다.
AI 및 ML 워크로드와 관련된 운영 우수성 원칙 및 권장사항은 설계 품질 프레임워크의 AI 및 ML 관점: 운영 우수성을 참고하세요.
핵심 원칙
Well-Architected Framework의 운영 우수성 요소에 포함된 권장사항은 다음 핵심 원칙에 매핑됩니다.
- CloudOps를 사용하여 운영 준비 상태 및 성능 보장: 서비스 수준 목표 (SLO)를 정의하고 포괄적인 모니터링, 성능 테스트, 용량 계획을 실행하여 클라우드 솔루션이 운영 및 성능 요구사항을 충족하도록 합니다.
- 이슈 및 문제 관리: 포괄적인 관측 가능성, 명확한 이슈 대응 절차, 철저한 회고 분석, 예방 조치를 통해 클라우드 이슈의 영향을 최소화하고 재발을 방지합니다.
- 클라우드 리소스 관리 및 최적화: 적절한 크기 조정, 자동 확장과 같은 전략을 사용하고 효과적인 비용 모니터링 도구를 사용하여 클라우드 리소스를 최적화하고 관리합니다.
- 변경사항 자동화 및 관리: 프로세스를 자동화하고, 변경사항 관리를 간소화하며, 수작업의 부담을 덜어줍니다.
- 지속적인 개선 및 혁신: 경쟁력을 유지하기 위해 지속적인 개선과 새로운 솔루션 도입에 집중합니다.
참여자
저자:
기타 참여자:
- 다니엘 리 | 클라우드 보안 설계자
- 필리페 그라시오, 박사 | 고객 엔지니어
- 게리 하름슨 | 고객 엔지니어
- 호세 안드라데 | 엔터프라이즈 인프라 고객 엔지니어
- 저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
- 니콜라스 핀토우 | 고객 엔지니어, 애플리케이션 현대화 전문가
- 라디카 카나캄 | Cloud GTM 선임 프로그램 관리자
- 자크 세일 | 네트워킹 전문가
- 웨이드 홀름스 | 글로벌 솔루션 이사
CloudOps를 사용하여 운영 준비 상태 및 성능 보장
Google Cloud Well-Architected Framework의 운영 우수성 요소에 포함된 이 원칙은 클라우드 워크로드의 운영 준비 상태와 성능을 보장하는 데 도움이 됩니다. 서비스 성능에 대한 명확한 기대치와 약속을 수립하고, 강력한 모니터링 및 알림을 구현하고, 성능 테스트를 실행하고, 용량 요구사항을 사전에 계획하는 것이 중요합니다.
원칙 개요
조직마다 운영 준비 상태를 다르게 해석할 수 있습니다. 운영 준비 상태는 조직이 Google Cloud에서 워크로드를 성공적으로 운영하기 위해 준비하는 방식입니다. 복잡한 다층 클라우드 워크로드를 운영하려면 서비스 개시와 다음 날 운영을 모두 신중하게 계획해야 합니다. 이러한 작업을 CloudOps라고 합니다.
운영 준비 상태의 중점 영역
운영 준비 상태는 4가지 중점 영역으로 구성됩니다. 각 중점 영역은 Google Cloud에서 복잡한 애플리케이션이나 환경을 운영할 준비를 하는 데 필요한 일련의 활동과 구성요소로 구성됩니다. 다음 표에는 각 중점 영역의 구성요소와 활동이 나와 있습니다.
운영 준비 상태의 중점 영역 | 활동 및 구성요소 |
---|---|
인력 |
|
프로세스 |
|
도구 | CloudOps 프로세스를 지원하는 데 필요한 도구입니다. |
거버넌스 |
|
권장사항
CloudOps를 사용하여 운영 준비 상태와 성능을 보장하려면 다음 섹션의 권장사항을 고려하세요. 이 문서의 각 권장사항은 운영 준비 상태의 주요 영역 중 하나 이상과 관련이 있습니다.
SLO 및 SLA 정의
클라우드 운영팀의 핵심 책임은 모든 중요한 워크로드에 대한 서비스 수준 목표 (SLO) 및 서비스수준계약 (SLA)을 정의하는 것입니다. 이 권장사항은 거버넌스 운영 준비 상태의 중점 영역과 관련이 있습니다.
SLO는 구체적이고 측정 가능하며 달성 가능하고 관련성이 있으며 시간제한이 있어야 하며 (SMART) 원하는 서비스 수준과 성능을 반영해야 합니다.
- 구체적: 필요한 서비스 수준과 성능을 명확하게 설명합니다.
- 측정 가능: 수량화 및 추적 가능
- 달성 가능: 조직의 기능과 리소스 범위 내에서 달성할 수 있습니다.
- 관련성: 비즈니스 목표 및 우선순위에 부합합니다.
- 시간 제한: 측정 및 평가를 위한 정의된 기간이 있습니다.
예를 들어 웹 애플리케이션의 SLO는 '가용성 99.9%' 또는 '평균 응답 시간 200밀리초 미만'일 수 있습니다. 이러한 SLO는 웹 애플리케이션에 필요한 서비스 수준과 성능을 명확하게 정의하며, SLO는 시간 경과에 따라 측정하고 추적할 수 있습니다.
SLA는 서비스 가용성, 성능, 지원과 관련하여 고객에게 제공하는 약속을 설명하며, 여기에는 정책 위반에 대한 불이익이나 구제 조치도 포함됩니다. SLA에는 제공되는 서비스, 기대할 수 있는 서비스 수준, 서비스 제공업체와 고객의 책임, 정책 위반에 대한 불이익 또는 구제 조치에 관한 구체적인 세부정보가 포함되어야 합니다. SLA는 두 당사자 간의 계약으로서, 양 당사자가 클라우드 서비스와 관련된 기대치와 의무를 명확하게 이해할 수 있도록 합니다.
Google Cloud 는 SLO를 정의하고 추적하는 데 도움이 되는 Cloud 모니터링 및 서비스 수준 지표 (SLI)와 같은 도구를 제공합니다. Cloud Monitoring은 조직에서 클라우드 기반 애플리케이션 및 서비스의 가용성, 성능, 지연 시간과 관련된 측정항목을 수집하고 분석할 수 있는 포괄적인 모니터링 및 관측 가능성 기능을 제공합니다. SLI는 시간 경과에 따라 SLO를 측정하고 추적하는 데 사용할 수 있는 특정 측정항목입니다. 이러한 도구를 활용하면 클라우드 서비스를 효과적으로 모니터링하고 관리하며 SLO 및 SLA를 준수하도록 할 수 있습니다.
모든 중요한 클라우드 서비스에 대한 SLO 및 SLA를 명확하게 정의하고 전달하면 배포된 애플리케이션과 서비스의 안정성과 성능을 보장하는 데 도움이 됩니다.
종합적인 관측 기능 구현
클라우드 환경의 상태와 성능을 실시간으로 파악하려면 Google Cloud Observability 도구 와 서드 파티 솔루션을 함께 사용하는 것이 좋습니다. 이 권장사항은 운영 준비 상태의 주요 영역인 프로세스 및 도구와 관련이 있습니다.
관측 가능성 솔루션을 조합하여 구현하면 클라우드 인프라와 애플리케이션의 다양한 측면을 다루는 포괄적인 관측 가능성 전략을 얻을 수 있습니다. Google Cloud Observability는 다양한Google Cloud 서비스, 애플리케이션, 외부 소스의 측정항목, 로그, 트레이스를 수집, 분석, 시각화하기 위한 통합 플랫폼입니다. Cloud Monitoring을 사용하면 리소스 사용량, 성능 특성, 리소스의 전반적인 상태에 대한 유용한 정보를 얻을 수 있습니다.
포괄적인 모니터링을 위해 CPU 사용률, 메모리 사용량, 네트워크 트래픽, 디스크 I/O, 애플리케이션 응답 시간과 같은 시스템 상태 표시기와 일치하는 중요한 측정항목을 모니터링합니다. 비즈니스별 측정항목도 고려해야 합니다. 이러한 측정항목을 추적하면 잠재적인 병목 현상, 성능 문제, 리소스 제약 조건을 파악할 수 있습니다. 또한 잠재적 문제 또는 이상치에 대해 관련 팀에 사전 알림을 보내도록 알림을 설정할 수 있습니다.
모니터링 기능을 더욱 향상하려면 서드 파티 솔루션을 Google Cloud Observability와 통합하면 됩니다. 이러한 솔루션은 고급 분석, 머신러닝 기반 이상 감지, 이슈 관리 기능과 같은 추가 기능을 제공할 수 있습니다. Google Cloud 관측 가능성 도구와 서드 파티 솔루션을 결합하면 특정 요구사항에 맞게 강력하고 맞춤설정 가능한 모니터링 생태계를 만들 수 있습니다. 이러한 조합 접근 방식을 사용하면 문제를 사전에 식별하고 해결하고, 리소스 사용량을 최적화하고, 클라우드 애플리케이션 및 서비스의 전반적인 안정성과 가용성을 보장할 수 있습니다.
성능 및 부하 테스트 구현
정기적인 성능 테스트를 실행하면 클라우드 기반 애플리케이션과 인프라가 최대 부하를 처리하고 최적의 성능을 유지할 수 있습니다. 부하 테스트는 실제 트래픽 패턴을 시뮬레이션합니다. 스트레스 테스트는 시스템을 한계까지 밀어붙여 잠재적인 병목 현상과 성능 제한을 식별합니다. 이 권장사항은 운영 준비 상태의 주요 영역인 프로세스 및 도구와 관련이 있습니다.
Cloud Load Balancing 및 부하 테스트 서비스와 같은 도구를 사용하면 실제 트래픽 패턴을 시뮬레이션하고 애플리케이션을 스트레스 테스트할 수 있습니다. 이러한 도구는 다양한 부하 조건에서 시스템이 어떻게 동작하는지에 관한 유용한 정보를 제공하며 최적화가 필요한 영역을 파악하는 데 도움이 될 수 있습니다.
성능 테스트 결과를 바탕으로 최적의 성능과 확장성을 위해 클라우드 인프라와 애플리케이션을 최적화할 수 있습니다. 이 최적화에는 리소스 할당 조정, 구성 조정 또는 캐싱 메커니즘 구현이 포함될 수 있습니다.
예를 들어 트래픽이 많은 기간에 애플리케이션이 느려지는 경우 애플리케이션에 할당된 가상 머신 또는 컨테이너 수를 늘려야 할 수 있습니다. 또는 성능을 개선하기 위해 웹 서버 또는 데이터베이스의 구성을 조정해야 할 수도 있습니다.
성능 테스트를 정기적으로 실시하고 필요한 최적화를 구현하면 클라우드 기반 애플리케이션과 인프라가 항상 최고 성능으로 실행되고 사용자에게 원활하고 반응이 빠른 환경을 제공할 수 있습니다. 이렇게 하면 경쟁 우위를 유지하고 고객과의 신뢰를 구축하는 데 도움이 됩니다.
용량 계획 및 관리
유기적 또는 비유기적 미래 용량 요구사항을 사전에 계획하면 클라우드 기반 시스템의 원활한 운영과 확장성을 보장할 수 있습니다. 이 권장사항은 운영 준비 상태의 주요 영역 프로세스와 관련이 있습니다.
향후 용량을 계획하려면 컴퓨팅 인스턴스, 스토리지, API 요청과 같은 다양한 리소스의 할당량을 이해하고 관리해야 합니다. 이전 사용 패턴, 성장 예측, 비즈니스 요구사항을 분석하면 향후 용량 요구사항을 정확하게 예측할 수 있습니다. Cloud Monitoring 및 BigQuery와 같은 도구를 사용하여 사용 데이터를 수집 및 분석하고, 동향을 파악하고, 향후 수요를 예측할 수 있습니다.
과거 사용 패턴은 시간 경과에 따른 리소스 사용량에 관한 유용한 정보를 제공합니다. CPU 사용률, 메모리 사용량, 네트워크 트래픽과 같은 측정항목을 검사하여 수요가 많은 기간과 잠재적인 병목 현상을 파악할 수 있습니다. 또한 사용자 기반 증가, 신제품 및 기능, 마케팅 캠페인과 같은 요인을 기반으로 성장 예측을 수행하여 향후 용량 요구사항을 추정할 수 있습니다. 용량 요구사항을 평가할 때는 SLA 및 성능 타겟과 같은 비즈니스 요구사항도 고려해야 합니다.
워크로드의 리소스 크기를 결정할 때는 리소스 사용량에 영향을 줄 수 있는 요소를 고려하세요. 연말연시 쇼핑 기간 또는 분기말 할인과 같은 시즌별 변동으로 인해 수요가 일시적으로 급증할 수 있습니다. 제품 출시 또는 마케팅 캠페인과 같은 계획된 이벤트도 트래픽을 크게 늘릴 수 있습니다. 기본 시스템과 재해 복구 (DR) 시스템이 예상치 못한 수요 급증을 처리할 수 있도록 자연재해 및 사이버 공격과 같은 중단 시 원활한 페일오버를 지원할 수 있는 용량을 계획하세요.
자동 확장은 워크로드 변동에 따라 클라우드 리소스를 동적으로 조정하는 데 중요한 전략입니다. 자동 확장 정책을 사용하면 수요 변화에 따라 컴퓨팅 인스턴스, 스토리지, 기타 리소스를 자동으로 확장할 수 있습니다. 이렇게 하면 최대 부하가 발생하는 시간에 최적의 성능을 보장하고 리소스 사용률이 낮을 때는 비용을 최소화할 수 있습니다. 자동 확장 알고리즘은 CPU 사용률, 메모리 사용량, 큐 깊이와 같은 측정항목을 사용하여 리소스를 확장할 시점을 결정합니다.
지속적으로 모니터링 및 최적화
클라우드 워크로드를 관리하고 최적화하려면 성능 측정항목을 지속적으로 모니터링하고 분석하는 프로세스를 수립해야 합니다. 이 권장사항은 운영 준비의 중점 영역인 프로세스 및 도구와 관련이 있습니다.
지속적인 모니터링 및 분석을 위한 프로세스를 수립하려면 클라우드 환경의 다양한 측면과 관련된 데이터를 추적, 수집, 평가합니다. 이 데이터를 사용하면 개선이 필요한 영역을 사전에 파악하고, 리소스 활용을 최적화하며, 클라우드 인프라가 일관되게 성능 기대치를 충족하거나 초과하도록 할 수 있습니다.
성능 모니터링의 중요한 측면은 로그와 트레이스를 정기적으로 검토하는 것입니다. 로그는 시스템 이벤트, 오류, 경고에 대한 유용한 정보를 제공합니다. 트레이스는 애플리케이션을 통한 요청 흐름에 관한 자세한 정보를 제공합니다. 로그와 트레이스를 분석하면 잠재적 문제를 파악하고, 문제의 근본 원인을 파악하고, 다양한 조건에서 애플리케이션이 어떻게 동작하는지 더 잘 이해할 수 있습니다. 서비스 간 왕복 시간과 같은 측정항목을 사용하면 워크로드의 병목 현상을 파악하고 이해하는 데 도움이 됩니다.
또한 성능 조정 기법을 사용하여 애플리케이션 응답 시간과 전반적인 효율성을 크게 개선할 수 있습니다. 다음은 사용할 수 있는 기법의 예입니다.
- 캐싱: 자주 액세스하는 데이터를 메모리에 저장하여 데이터베이스 쿼리 또는 API 호출을 반복할 필요성을 줄입니다.
- 데이터베이스 최적화: 색인 생성 및 쿼리 최적화와 같은 기법을 사용하여 데이터베이스 작업의 성능을 개선합니다.
- 코드 프로파일링: 과도한 리소스를 소비하거나 성능 문제를 일으키는 코드 영역을 식별합니다.
이러한 기법을 적용하면 애플리케이션을 최적화하고 클라우드에서 효율적으로 실행할 수 있습니다.
이슈 및 문제 관리
Google Cloud Well-Architected Framework의 운영 우수성 요소에 포함된 이 원칙은 클라우드 워크로드와 관련된 문제 및 이슈를 관리하는 데 도움이 되는 권장사항을 제공합니다. 여기에는 포괄적인 모니터링 및 관찰 가능성 구현, 명확한 이슈 대응 절차 수립, 철저한 근본 원인 분석 수행, 예방 조치 구현이 포함됩니다. 이 원칙에서 다루는 많은 주제는 안정성 필러에 자세히 설명되어 있습니다.
원칙 개요
이슈 관리 및 문제 관리는 기능적 운영 환경의 중요한 구성요소입니다. 심각도가 다른 문제에 대응하고, 분류하고, 해결하는 방식은 운영에 큰 영향을 미칠 수 있습니다. 또한 안정성과 성능을 최적화하기 위해 사전에 지속적으로 조정해야 합니다. 효율적인 문제 및 문제 관리 프로세스는 다음과 같은 기본 요소를 기반으로 합니다.
- 지속적 모니터링: 문제를 신속하게 파악하고 해결합니다.
- 자동화: 작업을 간소화하고 효율성을 높입니다.
- 조정: 클라우드 리소스를 효과적으로 조정하고 관리합니다.
- 데이터 기반 통계: 클라우드 운영을 최적화하고 정보에 입각한 결정을 내릴 수 있습니다.
이러한 요소를 사용하면 다양한 문제와 중단을 처리할 수 있는 탄력적인 클라우드 환경을 구축할 수 있습니다. 이러한 요소는 비용이 많이 드는 문제와 다운타임의 위험을 줄이고 비즈니스 민첩성과 성공을 달성하는 데도 도움이 됩니다. 이러한 기본 요소는 운영 준비 상태의 네 가지 주요 영역인 인력, 프로세스, 도구, 거버넌스에 걸쳐 있습니다.
권장사항
이슈와 문제를 효과적으로 관리하려면 다음 섹션의 권장사항을 고려하세요. 이 문서의 각 권장사항은 운영 준비 상태의 주요 영역 중 하나 이상과 관련이 있습니다.
명확한 이슈 대응 절차 수립
명확한 역할과 책임은 사고에 효과적이고 조율된 대응을 보장하는 데 필수적입니다. 또한 명확한 커뮤니케이션 프로토콜과 에스컬레이션 경로를 사용하면 사고 발생 시 정보가 신속하고 효과적으로 공유될 수 있습니다. 이 권장사항은 인력, 프로세스, 도구라는 운영 준비의 주요 영역과 관련이 있습니다.
이슈 대응 절차를 수립하려면 이슈 지휘관, 조사관, 커뮤니케이터, 기술 전문가와 같은 각 팀원의 역할과 기대치를 정의해야 합니다. 커뮤니케이션 및 에스컬레이션 경로를 설정하는 작업에는 중요한 연락처를 파악하고, 커뮤니케이션 채널을 설정하고, 필요한 경우 상위 관리 팀으로 문제를 에스컬레이션하는 절차를 정의하는 것이 포함됩니다. 정기적인 교육과 준비를 통해 팀에 사고에 효과적으로 대응하는 데 필요한 지식과 기술이 갖춰질 수 있습니다.
런북 또는 플레이북에 이슈 대응 절차를 문서화하면 팀이 이슈 발생 시 따라야 할 표준화된 참조 가이드를 제공할 수 있습니다. 런북에는 커뮤니케이션, 분류, 조사, 해결을 비롯한 문제 대응 프로세스의 각 단계에서 취해야 할 단계가 요약되어야 합니다. 또한 관련 도구 및 리소스에 관한 정보와 중요한 인원의 연락처 정보도 포함해야 합니다. 런북이 최신 상태로 유지되고 효과적으로 작동하도록 정기적으로 검토하고 업데이트해야 합니다.
중앙 집중식 이슈 관리
이슈 수명 주기 전반에서 효과적으로 추적하고 관리하려면 중앙 집중식 이슈 관리 시스템을 사용하는 것이 좋습니다. 이 권장사항은 운영 준비 상태의 주요 영역인 프로세스 및 도구와 관련이 있습니다.
중앙 집중식 사고 관리 시스템은 다음과 같은 이점을 제공합니다.
- 가시성 개선: 모든 이슈 관련 데이터를 한곳으로 통합하면 팀에서 다양한 채널이나 시스템에서 컨텍스트를 검색할 필요가 없습니다. 이 접근 방식은 시간을 절약하고 혼란을 줄여 주며 이해관계자에게 상태, 영향, 진행 상황을 비롯한 전반적인 사고 정보를 제공합니다.
- 조정 및 공동작업 개선: 중앙 집중식 시스템은 커뮤니케이션 및 작업 관리를 위한 통합 플랫폼을 제공합니다. 이로써 이슈 대응에 참여하는 여러 부서와 기능 간의 원활한 협업이 촉진됩니다. 이 접근 방식을 사용하면 모든 사용자가 최신 정보에 액세스할 수 있고, 잘못된 커뮤니케이션과 불일치의 위험을 줄일 수 있습니다.
- 책임성 및 소유권 향상: 중앙 집중식 이슈 관리 시스템을 사용하면 조직에서 특정 개인 또는 팀에 할당할 수 있으며 책임이 명확하게 정의되고 추적됩니다. 이 접근 방식은 팀원이 자신의 진행 상황과 기여도를 쉽게 모니터링할 수 있으므로 책임성을 높이고 사전 예방적 문제 해결을 장려합니다.
중앙 집중식 이슈 관리 시스템은 이슈 추적, 작업 할당, 커뮤니케이션 관리를 위한 강력한 기능을 제공해야 합니다. 이러한 기능을 사용하면 워크플로를 맞춤설정하고, 우선순위를 지정하고, 모니터링 도구 및 티켓 시스템과 같은 다른 시스템과 통합할 수 있습니다.
중앙 집중식 이슈 관리 시스템을 구현하면 조직의 이슈 대응 프로세스를 최적화하고, 공동작업을 개선하고, 가시성을 높일 수 있습니다. 이렇게 하면 사고 해결 시간이 단축되고 다운타임이 줄어들며 고객 만족도가 향상됩니다. 또한 과거 이슈에서 학습하고 개선이 필요한 영역을 파악할 수 있으므로 지속적인 개선 문화를 조성하는 데 도움이 됩니다.
철저한 사후 검토 실시
사고가 발생한 후에는 사후 분석이라고도 하는 자세한 사후 검토(PIR)를 수행하여 근본 원인, 기여 요인, 교훈을 파악해야 합니다. 이러한 철저한 검토를 통해 향후 유사한 사고를 방지할 수 있습니다. 이 권장사항은 운영 준비의 주요 영역인 프로세스 및 거버넌스와 관련이 있습니다.
PIR 프로세스에는 사고의 다양한 측면에 대한 전문 지식을 보유한 여러 분야의 전문가가 참여해야 합니다. 팀은 인터뷰, 문서 검토, 현장 검사를 통해 모든 관련 정보를 수집해야 합니다. 이슈로 이어진 작업의 시퀀스를 설정하려면 이벤트 타임라인을 만들어야 합니다.
팀에서 필요한 정보를 수집한 후에는 근본 원인 분석을 수행하여 이슈를 일으킨 요인을 파악해야 합니다. 이 분석에서는 사고의 즉각적인 원인과 사고에 기여한 시스템적 문제를 모두 파악해야 합니다.
PIR팀은 근본 원인을 파악하는 것과 함께 이슈를 일으켰을 수 있는 기타 요인도 파악해야 합니다. 이러한 요인에는 사람의 실수, 장비 고장, 커뮤니케이션 중단, 교육 부족과 같은 조직적 요인이 포함될 수 있습니다.
PIR 보고서에는 이벤트 타임라인, 근본 원인 분석, 권장 조치를 비롯한 조사 결과가 문서화되어야 합니다. 이 보고서는 시정 조치를 구현하고 재발을 방지하는 데 유용한 리소스입니다. 이 보고서는 모든 관련 이해관계자와 공유되어야 하며 안전 교육 및 절차를 수립하는 데 사용되어야 합니다.
성공적인 PIR 프로세스를 보장하려면 조직에서 책임을 전가하는 대신 학습과 개선에 중점을 둔 비난 없는 문화를 조성해야 합니다. 이러한 문화는 개인이 보복을 두려워하지 않고 사고를 신고하도록 장려하며, 조직은 시스템적인 문제를 해결하고 의미 있는 개선을 할 수 있습니다.
철저한 PIR을 실시하고 결과에 따라 시정 조치를 구현하면 향후 유사한 사고가 발생할 위험을 크게 줄일 수 있습니다. 사고 조사 및 예방에 대한 이러한 사전 예방적 접근 방식은 관련된 모든 사용자에게 더 안전하고 효율적인 작업 환경을 만드는 데 도움이 됩니다.
기술 자료 유지관리
알려진 문제, 해결 방법, 문제 해결 가이드로 구성된 지식 기반은 이슈 관리 및 해결에 필수적입니다. 팀원들은 기술 자료를 사용하여 일반적인 문제를 빠르게 파악하고 해결할 수 있습니다. 지식 베이스를 구현하면 에스컬레이션 필요성이 줄어들고 전반적인 효율성이 개선됩니다. 이 권장사항은 인력 및 프로세스와 같은 운영 준비의 주요 영역과 관련이 있습니다.
지식 베이스의 주요 이점은 팀이 과거 경험을 바탕으로 학습하고 실수를 반복하지 않도록 할 수 있다는 것입니다. 팀은 알려진 문제의 솔루션을 캡처하고 공유하여 일반적인 문제 해결 방법과 사고 관리를 위한 권장사항을 공유할 수 있습니다. 지식 베이스를 사용하면 시간과 노력을 절약할 수 있으며 프로세스를 표준화하고 일관된 방식으로 사고를 해결할 수 있습니다.
지식 베이스는 이슈 해결 시간을 개선하는 데 도움이 될 뿐만 아니라 여러 팀 간에 지식 공유 및 공동작업을 장려합니다. 중앙 정보 저장소를 사용하면 팀이 기술 자료에 쉽게 액세스하고 참여할 수 있으므로 지속적인 학습 및 개선의 문화를 조성할 수 있습니다. 이러한 문화는 팀이 전문성과 경험을 공유하도록 장려하여 보다 포괄적이고 가치 있는 지식 기반을 구축하는 데 도움이 됩니다.
기술 자료를 효과적으로 만들고 관리하려면 적절한 도구와 기술을 사용하세요. Google Workspace와 같은 공동작업 플랫폼은 문서를 공동으로 쉽게 만들고, 수정하고, 공유할 수 있으므로 이 목적에 적합합니다. 이러한 도구는 버전 관리 및 변경사항 추적도 지원하므로 기술 자료가 최신 상태로 정확하게 유지됩니다.
모든 관련 팀이 기술 자료에 쉽게 액세스할 수 있도록 합니다. 이를 위해 기존 이슈 관리 시스템과 지식 베이스를 통합하거나 전용 포털 또는 인트라넷 사이트를 제공하면 됩니다. 즉시 사용할 수 있는 KB를 사용하면 팀에서 문제를 효율적으로 해결하는 데 필요한 정보에 빠르게 액세스할 수 있습니다. 이러한 가용성은 다운타임을 줄이고 비즈니스 운영에 미치는 영향을 최소화하는 데 도움이 됩니다.
관련성 있고 유용한 지식 베이스를 유지하기 위해 정기적으로 검토하고 업데이트하세요. 이슈 신고를 모니터링하고, 일반적인 문제와 동향을 파악하고, 새로운 해결 방법과 문제 해결 가이드를 기술 자료에 통합합니다. 최신 기술 자료는 팀이 더 빠르고 효과적으로 문제를 해결하는 데 도움이 됩니다.
이슈 대응 자동화
자동화하면 이슈 대응 및 해결 프로세스를 간소화할 수 있습니다. 이를 통해 보안 침해 및 시스템 장애를 신속하고 효율적으로 해결할 수 있습니다. Google Cloud Cloud Run 함수 또는 Cloud Run과 같은 제품을 사용하면 일반적으로 수동으로 진행되고 시간이 많이 소요되는 다양한 작업을 자동화할 수 있습니다. 이 권장사항은 운영 준비 상태의 주요 영역인 프로세스 및 도구와 관련이 있습니다.
자동화된 사고 대응의 이점은 다음과 같습니다.
- Incident Detection and Resolution Times(Incident Detection and Resolution Times, 문제 감지 및 해결 시간) 감소: 자동화 도구는 시스템과 애플리케이션을 지속적으로 모니터링하고, 의심스럽거나 비정상적인 활동을 실시간으로 감지하며, 개입 없이 이해관계자에게 알리거나 대응할 수 있습니다. 이 자동화를 사용하면 잠재적인 위협이나 문제가 심각한 문제로 에스컬레이션되기 전에 파악할 수 있습니다. 이슈가 감지되면 자동화 도구는 영향을 받은 시스템을 격리하거나, 악성 파일을 격리하거나, 변경사항을 롤백하여 시스템을 정상 상태로 복원하는 등 사전 정의된 해결 조치를 트리거할 수 있습니다.
- 보안 및 운영팀의 부담 감소: 자동화된 이슈 응답을 통해 보안 및 운영팀이 보다 전략적인 작업에 집중할 수 있습니다. 진단 정보 수집이나 경보 트리거와 같은 일상적이고 반복적인 작업을 자동화하면 조직에서 인력을 더 복잡하고 중요한 문제 해결에 투입할 수 있습니다. 이러한 자동화를 통해 전반적인 사고 대응 효과와 효율성이 개선될 수 있습니다.
- 해결 프로세스의 일관성 및 정확성 향상: 자동화 도구를 사용하면 영향을 받는 모든 시스템에 해결 작업이 균일하게 적용되므로 인적 오류 또는 불일치의 위험을 최소화할 수 있습니다. 이처럼 해결 프로세스를 표준화하면 사용자와 비즈니스에 미치는 이슈의 영향을 최소화할 수 있습니다.
클라우드 리소스 관리 및 최적화
Google Cloud Well-Architected Framework의 운영 우수성 요소에 있는 이 원칙은 클라우드 워크로드에서 사용하는 리소스를 관리하고 최적화하는 데 도움이 되는 권장사항을 제공합니다. 여기에는 실제 사용량과 수요에 따라 리소스를 적정 규모로 조정하고, 동적 리소스 할당에 자동 확장을 사용하고, 비용 최적화 전략을 구현하고, 리소스 사용률과 비용을 정기적으로 검토하는 것이 포함됩니다. 이 원칙에서 다루는 많은 주제는 비용 최적화 필러에 자세히 설명되어 있습니다.
원칙 개요
클라우드 리소스 관리 및 최적화는 클라우드 지출, 리소스 사용량, 인프라 효율성을 최적화하는 데 중요한 역할을 합니다. 여기에는 클라우드 지출에서 가치와 수익을 극대화하기 위한 다양한 전략과 권장사항이 포함되어 있습니다.
이 요소의 최적화는 비용 절감에만 국한되지 않습니다. 다음 목표를 강조합니다.
- 효율성: 자동화 및 데이터 분석을 사용하여 실적을 극대화하고 비용을 절감합니다.
- 성능: 변동하는 수요에 맞춰 리소스를 손쉽게 확장하여 최적의 결과를 제공합니다.
- 확장성: 급격한 성장과 다양한 워크로드를 수용하도록 인프라와 프로세스를 조정합니다.
이러한 목표에 집중하면 비용과 기능 간의 균형을 맞출 수 있습니다. 리소스 프로비저닝, 확장, 이전과 관련하여 충분한 정보를 바탕으로 결정을 내릴 수 있습니다. 또한 리소스 소비 패턴에 대한 유용한 정보를 얻을 수 있으므로 잠재적인 문제가 발생하기 전에 이를 미리 파악하고 해결할 수 있습니다.
권장사항
리소스를 관리하고 최적화하려면 다음 섹션의 권장사항을 고려하세요. 이 문서의 각 권장사항은 운영 준비 상태의 주요 영역 중 하나 이상과 관련이 있습니다.
적절한 규모의 리소스
리소스 사용률을 지속적으로 모니터링하고 실제 수요에 맞게 리소스 할당을 조정하는 것은 효율적인 클라우드 리소스 관리에 필수적입니다. 리소스를 과도하게 프로비저닝하면 불필요한 비용이 발생할 수 있으며, 프로비저닝이 부족하면 애플리케이션 성능 및 사용자 환경에 영향을 미치는 성능 병목 현상이 발생할 수 있습니다. 최적의 균형을 이루려면 사전에 클라우드 리소스 크기를 조정하는 선제적 접근 방식을 채택해야 합니다. 이 권장사항은 거버넌스 운영 준비 상태의 중점 영역과 관련이 있습니다.
Cloud Monitoring 및 Recommender를 사용하면 적절한 크기 조정을 위한 기회를 파악할 수 있습니다. Cloud Monitoring은 리소스 사용률 측정항목을 실시간으로 확인할 수 있도록 지원합니다. 이러한 가시성을 통해 리소스 사용 패턴을 추적하고 잠재적인 비효율성을 파악할 수 있습니다. 추천 도구는 리소스 사용률 데이터를 분석하여 리소스 할당을 최적화하기 위한 지능형 추천을 제공합니다. 이러한 도구를 사용하면 리소스 사용량에 대한 통계를 얻고 리소스 크기를 적절하게 조절하는 데 관한 정보에 입각한 결정을 내릴 수 있습니다.
Cloud Monitoring 및 Recommender 외에도 맞춤 측정항목을 사용하여 자동 크기 조절 작업을 트리거하는 것이 좋습니다. 맞춤 측정항목을 사용하면 애플리케이션 및 워크로드와 관련된 특정 리소스 활용률 측정항목을 추적할 수 있습니다. 사전 정의된 기준이 충족되면 관리자에게 알림을 보내도록 알림을 구성할 수도 있습니다. 그러면 관리자가 리소스 할당을 조정하는 데 필요한 조치를 취할 수 있습니다. 이러한 사전 예방적 접근 방식을 통해 리소스를 적시에 확장할 수 있으므로 클라우드 비용을 최적화하고 성능 문제를 방지할 수 있습니다.
자동 확장 사용
컴퓨팅 및 기타 리소스를 자동 확장하면 클라우드 기반 애플리케이션의 최적의 성능과 비용 효율성을 보장할 수 있습니다. 자동 확장을 사용하면 워크로드 변동에 따라 리소스 용량을 동적으로 조정할 수 있으므로 필요한 리소스를 필요한 시점에 확보하고 과도한 프로비저닝 및 불필요한 비용을 방지할 수 있습니다. 이 권장사항은 운영 준비 상태의 주요 영역에 해당하는 절차와 관련이 있습니다.
다양한 애플리케이션과 워크로드의 다양한 요구사항을 충족하기 위해Google Cloud 는 다음을 비롯한 다양한 자동 확장 옵션을 제공합니다.
- Compute Engine 관리형 인스턴스 그룹 (MIG)은 단일 항목으로 관리 및 확장되는 VM 그룹입니다. MIG를 사용하면 그룹에서 유지할 최소 및 최대 VM 수를 지정하는 자동 확장 정책과 자동 확장을 트리거하는 조건을 정의할 수 있습니다. 예를 들어 CPU 사용률이 특정 기준에 도달하면 MIG에 VM을 추가하고 사용률이 다른 기준 아래로 떨어지면 VM을 삭제하도록 정책을 구성할 수 있습니다.
Google Kubernetes Engine (GKE) 자동 확장은 애플리케이션의 요구사항에 맞게 클러스터 리소스를 동적으로 조정합니다. 다음과 같은 도구를 제공합니다.
- 클러스터 자동 확장 처리는 Pod 리소스 수요에 따라 노드를 추가하거나 삭제합니다.
- 수평형 포드 자동 확장 처리는 CPU, 메모리 또는 커스텀 측정항목을 기준으로 포드 복제본의 수를 변경합니다.
- 수직형 포드 자동 확장 처리는 사용 패턴에 따라 포드 리소스 요청과 한도를 미세 조정합니다.
- 노드 자동 프로비저닝은 워크로드에 맞게 최적화된 노드 풀을 자동으로 만듭니다.
이러한 도구는 함께 작동하여 리소스 사용률을 최적화하고 애플리케이션 성능을 보장하며 클러스터 관리를 간소화합니다.
Cloud Run은 인프라를 관리할 필요 없이 코드를 실행할 수 있는 서버리스 플랫폼입니다. Cloud Run은 수신 트래픽을 기반으로 인스턴스 수를 자동으로 조정하는 내장 자동 확장을 제공합니다. 트래픽 양이 증가하면 Cloud Run은 로드를 처리하기 위해 인스턴스 수를 확장합니다. 트래픽이 감소하면 Cloud Run은 비용을 줄이기 위해 인스턴스 수를 축소합니다.
이러한 자동 확장 옵션을 사용하면 클라우드 기반 애플리케이션에 다양한 워크로드를 처리하는 데 필요한 리소스를 제공하면서 과도한 프로비저닝과 불필요한 비용을 방지할 수 있습니다. 자동 확장을 사용하면 성능이 개선되고 비용이 절감되며 클라우드 리소스를 더 효율적으로 사용할 수 있습니다.
비용 최적화 전략 활용
클라우드 지출을 최적화하면 조직의 IT 예산을 효과적으로 관리할 수 있습니다. 이 권장사항은 거버넌스 운영 준비 상태의 중점 영역과 관련이 있습니다.
Google Cloud 는 클라우드 비용을 최적화하는 데 도움이 되는 여러 도구와 기법을 제공합니다. 이러한 도구와 기법을 사용하면 클라우드 지출에서 최대의 가치를 얻을 수 있습니다. 이러한 도구와 기법을 사용하면 사용하지 않는 리소스를 식별하거나 비용 효율적인 인스턴스 유형을 추천하는 등 비용을 절감할 수 있는 영역을 파악할 수 있습니다. Google Cloud 클라우드 비용을 최적화하는 데 도움이 되는 옵션은 다음과 같습니다.
- 약정 사용 할인 (CUD)은 일정 기간 동안 특정 수준의 사용을 약정할 때 제공되는 할인입니다.
- Compute Engine의 지속 사용 할인은 서비스를 일관되게 사용할 때 할인을 제공합니다.
- 스팟 VM은 일반 VM에 비해 저렴한 비용으로 사용하지 않는 VM 용량에 액세스할 수 있도록 지원합니다.
가격 모델은 시간이 지남에 따라 변경될 수 있으며 기존 옵션에 비해 성능이 우수하거나 비용이 저렴한 새로운 기능이 도입될 수 있습니다. 따라서 가격 책정 모델을 정기적으로 검토하고 대체 기능을 고려해야 합니다. 최신 가격 책정 모델과 기능에 대한 정보를 확인하여 비용을 최소화할 수 있는 클라우드 아키텍처에 관한 정보에 입각한 결정을 내릴 수 있습니다.
예산 및 알림과 같은Google Cloud의 비용 관리 도구는 클라우드 지출에 대한 유용한 정보를 제공합니다. 예산 및 알림을 사용하면 사용자가 예산을 설정하고 예산이 초과되면 알림을 받을 수 있습니다. 이러한 도구를 사용하면 사용자가 클라우드 지출을 추적하고 비용을 줄일 수 있는 영역을 파악할 수 있습니다.
리소스 사용량 및 비용 추적
태그 지정 및 라벨 지정을 사용하여 리소스 사용량과 비용을 추적할 수 있습니다. 프로젝트, 부서 또는 기타 관련 측정기준과 같은 클라우드 리소스에 태그와 라벨을 할당하면 리소스를 분류하고 구성할 수 있습니다. 이를 통해 특정 리소스의 지출 패턴을 모니터링하고 분석하여 사용량이 많거나 비용 절감이 가능한 영역을 파악할 수 있습니다. 이 권장사항은 운영 준비 상태의 주요 영역인 거버넌스 및 도구와 관련이 있습니다.
Cloud Billing 및 비용 관리와 같은 도구를 사용하면 지출 패턴을 포괄적으로 파악할 수 있습니다. 이러한 도구는 클라우드 사용량에 관한 자세한 통계를 제공하며, 이를 통해 추세를 파악하고 비용을 예측하며 정보에 입각한 결정을 내릴 수 있습니다. 과거 데이터와 현재 지출 패턴을 분석하면 비용 최적화 작업의 중점 영역을 파악할 수 있습니다.
맞춤 대시보드와 보고서를 사용하면 비용 데이터를 시각화하고 지출 동향에 대한 심층적인 통계를 얻을 수 있습니다. 관련 측정항목 및 측정기준으로 대시보드를 맞춤설정하면 핵심성과지표 (KPI)를 모니터링하고 비용 최적화 목표 달성 진행 상황을 추적할 수 있습니다. 보고서에서는 비용 데이터를 더 심층적으로 분석할 수 있습니다. 보고서를 사용하면 특정 기간 또는 리소스 유형별로 데이터를 필터링하여 클라우드 지출에 기여하는 근본적인 요인을 파악할 수 있습니다.
태그, 라벨, 비용 분석 도구를 정기적으로 검토하고 업데이트하여 클라우드 사용량과 비용에 관한 최신 정보를 확인하세요. 정보를 파악하고 비용 사후 분석 또는 사전 비용 검토를 실시하면 예상치 못한 지출 증가를 즉시 파악할 수 있습니다. 이렇게 하면 클라우드 리소스를 최적화하고 비용을 관리하기 위한 사전 결정을 내릴 수 있습니다.
비용 할당 및 예산 설정
클라우드 비용 관리의 책임성과 투명성은 리소스 활용도를 최적화하고 재무 관리를 보장하는 데 중요합니다. 이 권장사항은 거버넌스 운영 준비 상태의 중점 영역과 관련이 있습니다.
책임 소재와 투명성을 보장하려면 비용 할당 및 지불 거절에 관한 명확한 메커니즘이 있어야 합니다. 조직은 특정 팀, 프로젝트 또는 개인에 비용을 할당하여 각 항목이 클라우드 사용에 대한 책임을 지도록 할 수 있습니다. 이를 통해 소유 의식을 고취하고 책임감 있는 리소스 관리를 장려할 수 있습니다. 또한 청구 취소 메커니즘을 사용하면 조직에서 내부 고객으로부터 클라우드 비용을 회수하고, 인센티브를 성과에 맞게 조정하고, 재정 규율을 장려할 수 있습니다.
여러 팀 또는 프로젝트에 대한 예산을 설정하는 것도 클라우드 비용 관리의 중요한 측면입니다. 예산을 사용하면 조직에서 지출 한도를 정의하고 한도에 대한 실제 비용을 추적할 수 있습니다. 이 접근 방식을 사용하면 통제되지 않은 지출을 방지하기 위해 사전에 결정을 내릴 수 있습니다. 실현 가능하고 현실적인 예산을 설정하면 클라우드 리소스를 효율적으로 사용하고 비즈니스 목표에 맞게 조정할 수 있습니다. 예산 대비 실제 지출을 정기적으로 모니터링하면 차이를 파악하고 잠재적인 초과 지출을 즉시 해결할 수 있습니다.
예산을 모니터링하려면 Cloud Billing 예산 및 알림과 같은 도구를 사용하면 됩니다. 이러한 도구는 클라우드 지출에 대한 실시간 통계를 제공하고 이해관계자에게 잠재적인 초과 지출을 알립니다. 이러한 기능을 사용하면 클라우드 비용을 추적하고 상당한 편차가 발생하기 전에 시정 조치를 취할 수 있습니다. 이러한 사전 예방적 접근 방식은 예상치 못한 비용 발생을 방지하고 클라우드 리소스를 책임감 있게 사용하는 데 도움이 됩니다.
변경사항 자동화 및 관리
Google Cloud Well-Architected Framework의 운영 우수성 요소 원칙은 클라우드 워크로드의 변경사항을 자동화하고 관리하는 데 도움이 되는 권장사항을 제공합니다. 코드형 인프라 (IaC) 구현, 표준 운영 절차 수립, 구조화된 변경 관리 프로세스 구현, 자동화 및 조정 사용 등이 여기에 포함됩니다.
원칙 개요
변경 관리 및 자동화는 클라우드 환경 내에서 원활하고 제어된 전환을 보장하는 데 중요한 역할을 합니다. 효과적인 변경 관리를 위해서는 서비스 중단을 최소화하고 변경사항이 기존 시스템과 원활하게 통합되도록 하는 전략과 권장사항을 사용해야 합니다.
효과적인 변경 관리 및 자동화에는 다음과 같은 기본 요소가 포함됩니다.
- 변경 거버넌스: 승인 절차 및 커뮤니케이션 계획을 포함하여 변경 관리에 관한 명확한 정책과 절차를 수립합니다.
- 위험 평가: 변경사항과 관련된 잠재적 위험을 식별하고 위험 관리 기법을 통해 완화합니다.
- 테스트 및 검증: 변경사항이 기능 및 성능 요구사항을 충족하고 잠재적인 회귀를 완화하는지 철저하게 테스트합니다.
- 제어된 배포: 제어된 방식으로 변경사항을 구현하여 사용자가 새 환경으로 원활하게 전환되도록 하고 필요한 경우 원활하게 롤백하는 메커니즘을 사용합니다.
이러한 기본 요소는 변경사항의 영향을 최소화하고 변경사항이 비즈니스 운영에 긍정적인 영향을 미치도록 하는 데 도움이 됩니다. 이러한 요소는 프로세스, 도구, 거버넌스 운영 준비 상태의 중점 영역으로 나타납니다.
권장사항
변경사항을 자동화하고 관리하려면 다음 섹션의 권장사항을 고려하세요. 이 문서의 각 권장사항은 운영 준비 상태의 주요 영역 중 하나 이상과 관련이 있습니다.
IaC 채택
코드형 인프라 (IaC)는 클라우드 인프라를 관리하기 위한 혁신적인 접근 방식입니다. Terraform과 같은 도구를 사용하여 클라우드 인프라를 선언적으로 정의하고 관리할 수 있습니다. IaC를 사용하면 일관성, 반복성, 간소화된 변경 관리를 달성할 수 있습니다. 또한 더 빠르고 안정적인 배포도 가능합니다. 이 권장사항은 운영 준비의 주요 영역인 프로세스 및 도구와 관련이 있습니다.
다음은 클라우드 배포에 IaC 접근 방식을 채택할 때의 주요 이점입니다.
- 인간이 읽을 수 있는 리소스 구성: IaC 접근 방식을 사용하면 JSON 또는 YAML과 같이 사람이 읽을 수 있는 형식으로 클라우드 인프라 리소스를 선언할 수 있습니다. 인프라 관리자와 운영자는 인프라를 쉽게 이해하고 수정하며 다른 사용자와 공동작업할 수 있습니다.
- 일관성 및 반복성: IaC를 사용하면 인프라 배포에서 일관성과 반복성을 구현할 수 있습니다. 배포를 실행하는 사용자와 관계없이 인프라가 매번 동일한 방식으로 프로비저닝되고 구성되도록 할 수 있습니다. 이 접근 방식은 오류를 줄이고 인프라가 항상 알려진 상태를 유지하도록 합니다.
- 책임성 및 간소화된 문제 해결: IaC 접근 방식은 책임성을 개선하고 문제를 더 쉽게 해결하는 데 도움이 됩니다. IaC 코드를 버전 제어 시스템에 저장하면 변경사항을 추적하고 변경이 언제 이루어졌으며 누가 변경했는지 식별할 수 있습니다. 필요한 경우 이전 버전으로 쉽게 롤백할 수 있습니다.
버전 제어 구현
Git과 같은 버전 제어 시스템은 IaC 프로세스의 핵심 구성요소입니다. 강력한 변경 관리 및 위험 완화 기능을 제공하므로 내부 개발 또는 SaaS 솔루션을 통해 널리 채택되고 있습니다. 이 권장사항은 운영 준비의 중점 영역인 거버넌스 및 도구와 관련이 있습니다.
버전 제어는 IaC 코드 및 구성의 변경사항을 추적하여 코드의 진화를 파악할 수 있도록 지원하므로 변경사항의 영향을 더 쉽게 이해하고 잠재적인 문제를 파악할 수 있습니다. 이렇게 하면 동일한 IaC 프로젝트에서 작업하는 팀원 간의 공동작업이 촉진됩니다.
대부분의 버전 제어 시스템에서는 필요한 경우 변경사항을 쉽게 롤백할 수 있습니다. 이 기능은 의도치 않은 결과나 오류의 위험을 완화하는 데 도움이 됩니다. IaC 워크플로에서 Git과 같은 도구를 사용하면 변경 관리 프로세스를 크게 개선하고, 공동작업을 장려하며, 위험을 완화할 수 있으므로 더 효율적이고 안정적인 IaC 구현을 실현할 수 있습니다.
CI/CD 파이프라인 빌드
지속적 통합 및 지속적 배포 (CI/CD) 파이프라인은 클라우드 애플리케이션을 개발하고 배포하는 프로세스를 간소화합니다. CI/CD 파이프라인은 빌드, 테스트, 배포 단계를 자동화하므로 품질 관리를 개선하면서 더 빠르고 자주 출시할 수 있습니다. 이 권장사항은 툴링 운영 준비 상태의 주요 영역과 관련이 있습니다.
CI/CD 파이프라인을 사용하면 코드 변경사항이 중앙 저장소(일반적으로 Git과 같은 버전 제어 시스템)에 지속적으로 통합됩니다. 연속 통합을 통해 문제를 조기에 감지하고 해결할 수 있으며 버그나 호환성 문제가 발생할 가능성을 줄일 수 있습니다.
클라우드 애플리케이션의 CI/CD 파이프라인을 만들고 관리하려면 Cloud Build 및 Cloud Deploy와 같은 도구를 사용하면 됩니다.
- Cloud Build는 개발자가 선언 방식으로 빌드 단계를 정의하고 실행할 수 있는 완전 관리형 빌드 서비스입니다. 인기 있는 소스 코드 관리 플랫폼과 원활하게 통합되며 코드 푸시 및 풀 리퀘스트와 같은 이벤트에 의해 트리거될 수 있습니다.
- Cloud Deploy는 테스트, 스테이징, 프로덕션과 같은 다양한 환경에 애플리케이션을 배포하는 프로세스를 자동화하는 서버리스 배포 서비스입니다. 블루-그린 배포, 트래픽 분할, 롤백 기능과 같은 기능을 제공하므로 애플리케이션 배포를 더 쉽게 관리하고 모니터링할 수 있습니다.
CI/CD 파이프라인을 버전 제어 시스템 및 테스트 프레임워크와 통합하면 클라우드 애플리케이션의 품질과 안정성을 보장하는 데 도움이 됩니다. CI/CD 프로세스의 일환으로 자동 테스트를 실행하면 개발팀은 코드가 프로덕션 환경에 배포되기 전에 문제를 신속하게 식별하고 수정할 수 있습니다. 이 통합을 통해 클라우드 애플리케이션의 전반적인 안정성과 성능을 개선할 수 있습니다.
구성 관리 도구 사용
Puppet, Chef, Ansible, VM Manager와 같은 도구를 사용하면 클라우드 리소스의 구성 및 관리를 자동화할 수 있습니다. 이러한 도구를 사용하면 클라우드 환경 전반에서 리소스 일관성과 규정 준수를 보장할 수 있습니다. 이 권장사항은 운영 준비 상태의 주요 영역에 해당하는 도구와 관련이 있습니다.
클라우드 리소스의 구성 및 관리를 자동화하면 다음과 같은 이점이 있습니다.
- 수동 오류 위험이 크게 감소: 수동 프로세스가 포함된 경우 인적 오류로 인한 실수가 발생할 가능성이 더 높습니다. 구성 관리 도구는 프로세스를 자동화하여 이 위험을 줄여 모든 클라우드 리소스에 구성이 일관되고 정확하게 적용되도록 합니다. 이러한 자동화를 통해 클라우드 환경의 신뢰성과 안정성이 개선될 수 있습니다.
- 운영 효율성 개선: 반복적인 작업을 자동화하면 조직의 IT 직원이 더 전략적인 이니셔티브에 집중할 수 있습니다. 이러한 자동화를 통해 생산성과 비용 절감은 물론 변화하는 비즈니스 요구사항에 대한 대응도 개선할 수 있습니다.
- 복잡한 클라우드 인프라의 간소화된 관리: 클라우드 환경의 규모와 복잡성이 커짐에 따라 리소스를 관리하기가 점점 더 어려워질 수 있습니다. 구성 관리 도구는 클라우드 리소스를 관리하기 위한 중앙 집중식 플랫폼을 제공합니다. 이 도구를 사용하면 구성을 추적하고, 문제를 파악하고, 변경사항을 구현하는 것이 더 쉬워집니다. 이러한 도구를 사용하면 클라우드 환경의 가시성, 제어, 보안을 개선할 수 있습니다.
테스트 자동화
CI/CD 파이프라인에 자동 테스트를 통합하면 클라우드 애플리케이션의 품질과 안정성을 보장할 수 있습니다. 배포 전에 변경사항을 검증하면 오류 및 회귀의 위험을 크게 줄일 수 있으므로 더 안정적이고 강력한 소프트웨어 시스템을 만들 수 있습니다. 이 권장사항은 운영 준비 상태의 주요 영역인 프로세스 및 도구와 관련이 있습니다.
다음은 CI/CD 파이프라인에 자동 테스트를 통합하는 주요 이점입니다.
- 버그 및 결함 조기 감지: 자동화된 테스트를 사용하면 버그와 결함이 프로덕션에서 심각한 문제를 일으키기 전에 개발 프로세스 초기에 감지할 수 있습니다. 이 기능을 사용하면 개발 프로세스의 후반 단계에서 비용이 많이 드는 재작업 및 버그 수정이 필요하지 않아 시간과 리소스를 절약할 수 있습니다.
- 고품질 및 표준 기반 코드: 자동 테스트를 통해 코드가 특정 표준 및 권장사항을 준수하도록 함으로써 코드의 전반적인 품질을 개선할 수 있습니다. 이 기능을 사용하면 오류가 발생할 가능성이 적은 유지보수 가능하고 안정적인 애플리케이션을 만들 수 있습니다.
CI/CD 파이프라인에서 다양한 유형의 테스트 기법을 사용할 수 있습니다. 각 테스트 유형은 특정 목적을 수행합니다.
- 단위 테스트는 함수나 메서드와 같은 개별 코드 단위를 테스트하여 예상대로 작동하는지 확인하는 데 중점을 둡니다.
- 통합 테스트는 애플리케이션의 여러 구성요소 또는 모듈 간의 상호작용을 테스트하여 함께 올바르게 작동하는지 확인합니다.
- 엔드 투 엔드 테스트는 단위 테스트 및 통합 테스트와 함께 사용되는 경우가 많습니다. 엔드 투 엔드 테스트는 실제 시나리오를 시뮬레이션하여 애플리케이션 전체를 테스트하고 애플리케이션이 최종 사용자의 요구사항을 충족하는지 확인하는 데 도움이 됩니다.
자동 테스트를 CI/CD 파이프라인에 효과적으로 통합하려면 적절한 테스트 도구와 프레임워크를 선택해야 합니다. 다양한 옵션이 있으며 각각의 옵션에는 장단점이 있습니다. 또한 실행할 테스트 유형, 테스트 빈도, 테스트 통과 또는 실패 기준을 설명하는 명확한 테스트 전략을 수립해야 합니다. 이러한 권장사항을 따르면 자동 테스트 프로세스를 효율적이고 효과적으로 진행할 수 있습니다. 이러한 프로세스는 클라우드 애플리케이션의 품질과 신뢰성에 관한 유용한 정보를 제공합니다.
지속적인 개선 및 혁신
Google Cloud Well-Architected Framework의 운영 우수성 요소 원칙은 클라우드 운영을 지속적으로 최적화하고 혁신을 주도하는 데 도움이 되는 권장사항을 제공합니다.
원칙 개요
클라우드에서 지속적으로 개선하고 혁신하려면 지속적인 학습, 실험, 적응에 중점을 두어야 합니다. 이를 통해 새로운 기술을 탐색하고 기존 프로세스를 최적화할 수 있으며, 조직이 업계 리더십을 달성하고 유지할 수 있는 우수성 문화를 장려할 수 있습니다.
지속적인 개선과 혁신을 통해 다음과 같은 목표를 달성할 수 있습니다.
- 혁신 가속화: 새로운 기술과 서비스를 살펴보고 기능을 개선하고 차별화된 경쟁력을 갖추세요.
- 비용 절감: 절차 개선 이니셔티브를 통해 비효율성을 파악하고 제거합니다.
- 민첩성 향상: 변화하는 시장 수요와 고객 요구에 빠르게 적응합니다.
- 의사결정 개선: 데이터 및 분석에서 유용한 정보를 얻어 데이터 기반 의사결정을 내립니다.
지속적인 개선 및 혁신 원칙을 수용하는 조직은 클라우드 환경의 잠재력을 최대한 발휘하고 지속 가능한 성장을 달성할 수 있습니다. 이 원칙은 주로 인력 운영 준비 상태의 중점 영역에 매핑됩니다. 혁신 문화를 통해 팀은 새로운 도구와 기술을 실험하여 기능을 확장하고 비용을 절감할 수 있습니다.
권장사항
클라우드 워크로드를 지속적으로 개선하고 혁신하려면 다음 섹션의 권장사항을 고려하세요. 이 문서의 각 권장사항은 운영 준비 상태의 주요 영역 중 하나 이상과 관련이 있습니다.
학습 문화 조성
팀이 실험하고, 지식을 공유하고, 지속적으로 학습하도록 장려합니다. 실패를 성장과 개선의 기회로 여기는 비난하지 않는 문화를 채택하세요. 이 권장사항은 인력의 운영 준비 상태 중점 영역과 관련이 있습니다.
학습 문화를 조성하면 팀이 실수에서 배우고 빠르게 반복할 수 있습니다. 이 접근 방식을 사용하면 팀원들이 위험을 감수하고, 새로운 아이디어를 실험하고, 업무의 경계를 넓히도록 장려할 수 있습니다. 또한 개인이 실패를 편안하게 공유하고 실패에서 학습할 수 있는 심리적으로 안전한 환경을 조성합니다. 이렇게 공유하면 더 개방적이고 협력적인 환경이 조성됩니다.
지식 공유와 지속적인 학습을 촉진하려면 팀이 지식을 공유하고 서로 학습할 수 있는 기회를 마련하세요. 비공식 및 공식 학습 세션과 회의를 통해 이를 수행할 수 있습니다.
실험, 지식 공유, 지속적인 학습의 문화를 조성하면 팀이 위험을 감수하고 혁신하며 성장할 수 있는 환경을 만들 수 있습니다. 이러한 환경을 조성하면 생산성이 향상되고 문제 해결 능력이 개선되며 직원의 참여도와 동기 부여가 높아질 수 있습니다. 또한 비난 없는 문화를 장려하면 직원이 실수로부터 배우고 팀의 집단 지식에 기여할 수 있는 안전한 공간을 만들 수 있습니다. 이러한 문화는 궁극적으로 더 탄력적이고 적응력이 뛰어난 인력을 양성하여 장기적으로 문제를 해결하고 성공을 거둘 수 있도록 합니다.
정기적으로 회고 진행
회고는 팀이 경험을 되돌아보고 잘된 점과 개선할 수 있는 점을 파악할 수 있는 기회를 제공합니다. 프로젝트 또는 주요 사고 후 회고를 실시하면 팀에서 성공과 실패를 통해 학습하고 프로세스와 관행을 지속적으로 개선할 수 있습니다. 이 권장사항은 운영 준비의 주요 영역인 프로세스 및 거버넌스와 관련이 있습니다.
회고를 구성하는 효과적인 방법은 시작-중지-계속 모델을 사용하는 것입니다.
- 시작: 회고의 시작 단계에서 팀원들은 업무를 개선할 수 있다고 생각하는 새로운 관행, 프로세스, 행동을 파악합니다. 변경이 필요한 이유와 구현 방법을 논의합니다.
- 중지: 중지 단계에서 팀원들은 더 이상 효과적이지 않거나 진행을 방해하는 관행, 프로세스, 행동을 파악하고 제거합니다. 이러한 변경이 필요한 이유와 구현 방법을 설명합니다.
- 계속: 계속 단계에서 팀원들은 효과적이고 계속해야 할 관행, 프로세스, 행동을 파악합니다. 이러한 요소가 중요한 이유와 이를 강화하는 방법을 설명합니다.
팀은 시작-중지-계속 모델과 같은 구조화된 형식을 사용하여 실적 검토가 생산적이고 집중적으로 이루어지도록 할 수 있습니다. 이 모델은 토론을 촉진하고, 주요 사항을 파악하고, 향후 개선을 위한 조치를 취할 수 있도록 합니다.
클라우드 기술 최신 정보 확인하기
Google Cloud 서비스의 잠재력을 최대화하려면 최신 기술, 기능, 권장사항을 꾸준히 확인해야 합니다. 이 권장사항은 인력의 운영 준비 상태 중점 영역과 관련이 있습니다.
관련 컨퍼런스, 웹 세미나, 교육 세션에 참여하는 것은 지식을 넓히는 데 도움이 됩니다. 이러한 이벤트에서는 전문가로부터 Google Cloud 학습하고, 새로운 기능을 이해하고, 비슷한 문제를 겪고 있을 수 있는 업계 동료와 소통할 수 있습니다. 세션에 참석하면 새로운 기능을 효과적으로 사용하고, 클라우드 운영을 최적화하며, 조직 내에서 혁신을 주도하는 방법을 알아볼 수 있습니다.
팀원들이 클라우드 기술을 계속 따라잡을 수 있도록 자격증을 취득하고 교육 과정에 참석하도록 독려하세요. Google Cloud는 특정 클라우드 도메인의 기술과 지식을 검증하는 다양한 자격증을 제공합니다. 이러한 인증을 취득하면 우수성에 대한 노력을 보여주고 클라우드 기술에 대한 숙련도를 입증할 수 있습니다. Google Cloud 및 Google 파트너가 제공하는 교육 과정에서는 특정 주제를 자세히 다룹니다. 실제 프로젝트에 즉시 적용할 수 있는 직접적인 경험과 실용적인 기술을 제공합니다. 팀의 전문적인 개발에 투자하면 지속적인 학습 문화를 조성하고 모든 직원이 클라우드에서 성공하는 데 필요한 기술을 갖추도록 할 수 있습니다.
적극적으로 피드백을 구하고 반영
사용자, 이해관계자, 팀원들의 의견을 수집합니다. 의견을 바탕으로 클라우드 솔루션을 개선할 기회를 파악하세요. 이 권장사항은 인력의 운영 준비 상태 중점 영역과 관련이 있습니다.
수집한 의견을 통해 솔루션 사용자의 변화하는 요구사항, 문제, 기대치를 파악할 수 있습니다. 이러한 의견은 개선사항을 추진하고 향후 개선사항의 우선순위를 정하는 데 중요한 정보가 됩니다. 다음과 같은 다양한 메커니즘을 사용하여 의견을 수집할 수 있습니다.
- 설문조사는 다수의 사용자와 이해관계자로부터 정량적 데이터를 수집하는 효과적인 방법입니다.
- 사용자 인터뷰는 심층적인 정성적 데이터를 수집할 수 있는 기회를 제공합니다. 인터뷰를 통해 개별 사용자의 구체적인 문제와 경험을 파악할 수 있습니다.
- 클라우드 솔루션 내에 배치된 의견 양식은 사용자가 경험에 대한 즉각적인 의견을 제공할 수 있는 편리한 방법을 제공합니다.
- 팀원과의 정기적인 회의를 통해 기술적 측면과 구현 문제에 관한 의견을 수집할 수 있습니다.
이러한 메커니즘을 통해 수집한 의견은 공통적인 주제와 패턴을 파악하기 위해 분석 및 종합해야 합니다. 이 분석을 통해 추천된 개선사항의 영향과 실행 가능성에 따라 향후 개선사항의 우선순위를 지정할 수 있습니다. 의견을 통해 파악된 요구사항과 문제를 해결하면 클라우드 솔루션이 사용자와 이해관계자의 변화하는 요구사항을 계속 충족할 수 있습니다.
진행 상황 측정 및 추적
핵심성과지표 (KPI) 및 측정항목은 진행 상황을 추적하고 클라우드 운영의 효과를 측정하는 데 중요합니다. KPI는 전반적인 실적을 반영하는 수치화 가능한 측정항목입니다. 측정항목은 KPI 계산에 기여하는 특정 데이터 포인트입니다. 측정항목을 정기적으로 검토하고 이를 토대로 개선의 기회를 파악하고 진행 상황을 측정하세요. 이렇게 하면 클라우드 환경을 지속적으로 개선하고 최적화하는 데 도움이 됩니다. 이 권장사항은 운영 준비의 중점 영역인 거버넌스 및 프로세스와 관련이 있습니다.
KPI 및 측정항목을 사용하면 조직에서 클라우드 운영에 데이터 기반 접근 방식을 채택할 수 있다는 것이 가장 큰 이점입니다. 운영 데이터를 추적하고 분석하면 클라우드 환경을 개선하는 방법에 관해 정보에 입각한 결정을 내릴 수 있습니다. 이 데이터 기반 접근 방식을 사용하면 체계적인 측정항목을 사용하지 않고는 확인할 수 없는 동향, 패턴, 이상치를 파악할 수 있습니다.
운영 데이터를 수집하고 분석하려면 Cloud 모니터링 및 BigQuery와 같은 도구를 사용하면 됩니다. Cloud Monitoring을 사용하면 클라우드 리소스와 서비스를 실시간으로 모니터링할 수 있습니다. BigQuery를 사용하면 모니터링을 통해 수집한 데이터를 저장하고 분석할 수 있습니다. 이러한 도구를 함께 사용하면 맞춤 대시보드를 만들어 중요한 측정항목과 추세를 시각화할 수 있습니다.
운영 대시보드를 사용하면 가장 중요한 측정항목을 중앙 집중식으로 확인할 수 있으므로 확인이 필요한 영역을 빠르게 파악할 수 있습니다. 예를 들어 대시보드에는 특정 애플리케이션 또는 서비스의 CPU 사용률, 메모리 사용량, 네트워크 트래픽, 지연 시간과 같은 측정항목이 포함될 수 있습니다. 이러한 측정항목을 모니터링하면 잠재적인 문제를 신속하게 파악하고 해결 조치를 취할 수 있습니다.