이 페이지는 Cloud Translation API를 통해 번역되었습니다.

이슈 및 문제 관리

Last reviewed 2024-10-31 UTC

Google Cloud 아키텍처 프레임워크의 운영 우수성 요소에 포함된 이 원칙은 클라우드 워크로드와 관련된 문제 및 이슈를 관리하는 데 도움이 되는 권장사항을 제공합니다. 여기에는 포괄적인 모니터링 및 관찰 가능성 구현, 명확한 이슈 대응 절차 수립, 철저한 근본 원인 분석 수행, 예방 조치 구현이 포함됩니다. 이 원칙에서 다루는 많은 주제는 안정성 필러에 자세히 설명되어 있습니다.

원칙 개요

이슈 관리 및 문제 관리는 기능적 운영 환경의 중요한 구성요소입니다. 심각도가 다른 문제에 대응하고, 분류하고, 해결하는 방식은 운영에 큰 영향을 미칠 수 있습니다. 또한 안정성과 성능을 최적화하기 위해 사전에 지속적으로 조정해야 합니다. 효율적인 문제 및 문제 관리 프로세스는 다음과 같은 기본 요소를 기반으로 합니다.

지속적 모니터링: 문제를 신속하게 파악하고 해결합니다.
자동화: 작업을 간소화하고 효율성을 높입니다.
조정: 클라우드 리소스를 효과적으로 조정하고 관리합니다.
데이터 기반 통계: 클라우드 운영을 최적화하고 정보에 입각한 결정을 내릴 수 있습니다.

이러한 요소를 사용하면 다양한 문제와 중단을 처리할 수 있는 탄력적인 클라우드 환경을 구축할 수 있습니다. 이러한 요소는 비용이 많이 드는 문제와 다운타임의 위험을 줄이고 비즈니스 민첩성과 성공을 달성하는 데도 도움이 됩니다. 이러한 기본 요소는 운영 준비 상태의 네 가지 주요 영역인 인력, 프로세스, 도구, 거버넌스에 걸쳐 있습니다.

권장사항

이슈와 문제를 효과적으로 관리하려면 다음 섹션의 권장사항을 고려하세요. 이 문서의 각 권장사항은 운영 준비 상태의 주요 영역 중 하나 이상과 관련이 있습니다.

명확한 이슈 대응 절차 수립

명확한 역할과 책임은 사고에 효과적이고 조율된 대응을 보장하는 데 필수적입니다. 또한 명확한 커뮤니케이션 프로토콜과 에스컬레이션 경로를 사용하면 사고 발생 시 정보가 신속하고 효과적으로 공유될 수 있습니다. 이 권장사항은 인력, 프로세스, 도구라는 운영 준비의 주요 영역과 관련이 있습니다.

이슈 대응 절차를 수립하려면 이슈 지휘관, 조사관, 커뮤니케이터, 기술 전문가와 같은 각 팀원의 역할과 기대치를 정의해야 합니다. 커뮤니케이션 및 에스컬레이션 경로를 설정하는 작업에는 중요한 연락처를 파악하고, 커뮤니케이션 채널을 설정하고, 필요한 경우 상위 관리 팀으로 문제를 에스컬레이션하는 절차를 정의하는 것이 포함됩니다. 정기적인 교육과 준비를 통해 팀에 사고에 효과적으로 대응하는 데 필요한 지식과 기술이 갖춰질 수 있습니다.

런북 또는 플레이북에 이슈 대응 절차를 문서화하면 팀이 이슈 발생 시 따라야 할 표준화된 참조 가이드를 제공할 수 있습니다. 런북에는 커뮤니케이션, 분류, 조사, 해결을 비롯한 문제 대응 프로세스의 각 단계에서 취해야 할 단계가 요약되어야 합니다. 또한 관련 도구 및 리소스에 관한 정보와 중요한 인원의 연락처 정보도 포함해야 합니다. 런북이 최신 상태로 유지되고 효과적으로 작동하도록 정기적으로 검토하고 업데이트해야 합니다.

중앙 집중식 이슈 관리

이슈 수명 주기 전반에서 효과적으로 추적하고 관리하려면 중앙 집중식 이슈 관리 시스템을 사용하는 것이 좋습니다. 이 권장사항은 운영 준비 상태의 주요 영역인 프로세스 및 도구와 관련이 있습니다.

중앙 집중식 사고 관리 시스템은 다음과 같은 이점을 제공합니다.

가시성 개선: 모든 이슈 관련 데이터를 한곳으로 통합하면 팀에서 다양한 채널이나 시스템에서 컨텍스트를 검색할 필요가 없습니다. 이 접근 방식은 시간을 절약하고 혼란을 줄이며 이해관계자에게 상태, 영향, 진행 상황을 비롯한 문제에 대한 포괄적인 정보를 제공합니다.
조정 및 공동작업 개선: 중앙 집중식 시스템은 커뮤니케이션 및 작업 관리를 위한 통합 플랫폼을 제공합니다. 이로써 이슈 대응에 참여하는 여러 부서와 기능 간의 원활한 협업이 촉진됩니다. 이 접근 방식을 사용하면 모든 사용자가 최신 정보에 액세스할 수 있고, 잘못된 커뮤니케이션과 불일치의 위험을 줄일 수 있습니다.
책임성 및 소유권 향상: 중앙 집중식 이슈 관리 시스템을 사용하면 조직에서 특정 개인 또는 팀에 할당할 수 있으며 책임이 명확하게 정의되고 추적됩니다. 이 접근 방식은 팀원이 자신의 진행 상황과 기여도를 쉽게 모니터링할 수 있으므로 책임성을 높이고 사전 예방적 문제 해결을 장려합니다.

중앙 집중식 이슈 관리 시스템은 이슈 추적, 작업 할당, 커뮤니케이션 관리를 위한 강력한 기능을 제공해야 합니다. 이러한 기능을 사용하면 워크플로를 맞춤설정하고, 우선순위를 지정하고, 모니터링 도구 및 티켓 시스템과 같은 다른 시스템과 통합할 수 있습니다.

중앙 집중식 이슈 관리 시스템을 구현하면 조직의 이슈 대응 프로세스를 최적화하고, 공동작업을 개선하고, 가시성을 높일 수 있습니다. 이렇게 하면 사고 해결 시간이 단축되고 다운타임이 줄어들며 고객 만족도가 향상됩니다. 또한 과거 이슈에서 배우고 개선이 필요한 영역을 파악할 수 있으므로 지속적인 개선 문화를 조성하는 데 도움이 됩니다.

철저한 사후 검토 실시

사고가 발생한 후에는 사후 분석이라고도 하는 자세한 사후 검토(PIR)를 수행하여 근본 원인, 기여 요인, 교훈을 파악해야 합니다. 이러한 철저한 검토를 통해 향후 유사한 사고를 방지할 수 있습니다. 이 권장사항은 운영 준비의 주요 영역인 프로세스 및 거버넌스와 관련이 있습니다.

PIR 프로세스에는 사고의 다양한 측면에 대한 전문 지식을 보유한 여러 분야의 전문가가 참여해야 합니다. 팀은 인터뷰, 문서 검토, 현장 검사를 통해 모든 관련 정보를 수집해야 합니다. 이슈로 이어진 작업의 시퀀스를 설정하려면 이벤트 타임라인을 만들어야 합니다.

팀에서 필요한 정보를 수집한 후에는 근본 원인 분석을 수행하여 이슈를 일으킨 요인을 파악해야 합니다. 이 분석에서는 사고의 즉각적인 원인과 사고에 기여한 시스템적 문제를 모두 파악해야 합니다.

PIR팀은 근본 원인을 파악하는 것과 함께 이슈를 일으켰을 수 있는 기타 요인도 파악해야 합니다. 이러한 요인에는 인적 오류, 장비 고장, 커뮤니케이션 중단, 교육 부족과 같은 조직적 요인이 포함될 수 있습니다.

PIR 보고서에는 이벤트 타임라인, 근본 원인 분석, 권장 조치를 비롯한 조사 결과가 문서화되어야 합니다. 이 보고서는 시정 조치를 구현하고 재발을 방지하는 데 유용한 리소스입니다. 이 보고서는 모든 관련 이해관계자와 공유되어야 하며 안전 교육 및 절차를 수립하는 데 사용되어야 합니다.

성공적인 PIR 프로세스를 보장하려면 조직에서 책임을 전가하는 대신 학습과 개선에 중점을 둔 비난 없는 문화를 조성해야 합니다. 이러한 문화는 개인이 보복을 두려워하지 않고 사고를 신고하도록 장려하며, 조직은 시스템적인 문제를 해결하고 의미 있는 개선을 할 수 있습니다.

철저한 PIR을 실시하고 결과에 따라 시정 조치를 구현하면 향후 유사한 사고가 발생할 위험을 크게 줄일 수 있습니다. 사고 조사 및 예방에 대한 이러한 사전 예방적 접근 방식은 관련된 모든 사용자에게 더 안전하고 효율적인 작업 환경을 만드는 데 도움이 됩니다.

기술 자료 유지관리

알려진 문제, 해결 방법, 문제 해결 가이드로 구성된 지식 기반은 이슈 관리 및 해결에 필수적입니다. 팀원들은 기술 자료를 사용하여 일반적인 문제를 빠르게 파악하고 해결할 수 있습니다. 지식 베이스를 구현하면 에스컬레이션 필요성이 줄어들고 전반적인 효율성이 개선됩니다. 이 권장사항은 인력 및 프로세스와 같은 운영 준비의 주요 영역과 관련이 있습니다.

지식 베이스의 주요 이점은 팀이 과거 경험을 바탕으로 학습하고 실수를 반복하지 않도록 할 수 있다는 것입니다. 팀은 알려진 문제의 솔루션을 캡처하고 공유하여 일반적인 문제 해결 방법과 사고 관리를 위한 권장사항을 공유할 수 있습니다. 지식 베이스를 사용하면 시간과 노력을 절약할 수 있으며 프로세스를 표준화하고 일관된 방식으로 사고를 해결할 수 있습니다.

지식 베이스는 이슈 해결 시간을 개선하는 데 도움이 될 뿐만 아니라 여러 팀 간에 지식 공유 및 공동작업을 장려합니다. 중앙 정보 저장소를 사용하면 팀이 기술 자료에 쉽게 액세스하고 참여할 수 있으므로 지속적인 학습 및 개선의 문화를 조성할 수 있습니다. 이러한 문화는 팀이 전문성과 경험을 공유하도록 장려하여 보다 포괄적이고 가치 있는 지식 기반을 구축하는 데 도움이 됩니다.

기술 자료를 효과적으로 만들고 관리하려면 적절한 도구와 기술을 사용하세요. Google Workspace와 같은 공동작업 플랫폼은 문서를 공동으로 쉽게 만들고, 수정하고, 공유할 수 있으므로 이 목적에 적합합니다. 이러한 도구는 버전 관리 및 변경사항 추적도 지원하므로 기술 자료가 최신 상태로 정확하게 유지됩니다.

모든 관련 팀이 기술 자료에 쉽게 액세스할 수 있도록 합니다. 이를 위해 기존 이슈 관리 시스템과 지식 베이스를 통합하거나 전용 포털 또는 인트라넷 사이트를 제공하면 됩니다. 즉시 사용할 수 있는 KB를 사용하면 팀에서 문제를 효율적으로 해결하는 데 필요한 정보에 빠르게 액세스할 수 있습니다. 이러한 가용성은 다운타임을 줄이고 비즈니스 운영에 미치는 영향을 최소화하는 데 도움이 됩니다.

관련성 있고 유용한 지식 베이스를 유지하기 위해 정기적으로 검토하고 업데이트하세요. 이슈 신고를 모니터링하고, 일반적인 문제와 동향을 파악하고, 새로운 해결 방법과 문제 해결 가이드를 기술 자료에 통합합니다. 최신 기술 자료는 팀이 더 빠르고 효과적으로 문제를 해결하는 데 도움이 됩니다.

이슈 대응 자동화

자동화하면 이슈 대응 및 해결 프로세스를 간소화할 수 있습니다. 이를 통해 보안 침해 및 시스템 장애를 신속하고 효율적으로 해결할 수 있습니다. Google Cloud Cloud Run 함수 또는 Cloud Run과 같은 제품을 사용하면 일반적으로 수동으로 진행되고 시간이 많이 소요되는 다양한 작업을 자동화할 수 있습니다. 이 권장사항은 운영 준비 상태의 주요 영역인 프로세스 및 도구와 관련이 있습니다.

자동화된 이슈 대응의 이점은 다음과 같습니다.

이슈 감지 및 해결 시간 단축: 자동화 도구는 시스템과 애플리케이션을 지속적으로 모니터링하고, 의심스럽거나 비정상적인 활동을 실시간으로 감지하며, 개입 없이 이해관계자에게 알리거나 대응할 수 있습니다. 이 자동화를 사용하면 잠재적인 위협이나 문제가 심각한 문제로 에스컬레이션되기 전에 파악할 수 있습니다. 이슈가 감지되면 자동화 도구는 영향을 받은 시스템을 격리하거나, 악성 파일을 격리하거나, 변경사항을 롤백하여 시스템을 정상 상태로 복원하는 등 사전 정의된 해결 조치를 트리거할 수 있습니다.
보안 및 운영팀의 부담 감소: 자동화된 이슈 응답을 통해 보안 및 운영팀이 보다 전략적인 작업에 집중할 수 있습니다. 진단 정보 수집이나 경보 트리거와 같은 일상적이고 반복적인 작업을 자동화하면 조직에서 인력을 더 복잡하고 중요한 문제 해결에 투입할 수 있습니다. 이러한 자동화를 통해 전반적인 사고 대응 효과와 효율성이 개선될 수 있습니다.
해결 프로세스의 일관성 및 정확성 향상: 자동화 도구를 사용하면 영향을 받는 모든 시스템에 해결 작업이 균일하게 적용되므로 인적 오류 또는 불일치의 위험을 최소화할 수 있습니다. 이처럼 해결 프로세스를 표준화하면 사용자와 비즈니스에 미치는 이슈의 영향을 최소화할 수 있습니다.

CloudOps를 사용하여 운영 준비 상태 및 성능 보장

클라우드 리소스 관리 및 최적화