관측 가능성을 사용하여 잠재적 장애 감지

Last reviewed 2024-12-30 UTC

Google Cloud 아키텍처 프레임워크의 안정성 요소에 있는 이 원칙은 오류 및 실패가 발생할 수 있는 영역을 사전에 식별하는 데 도움이 되는 권장사항을 제공합니다.

이 원칙은 안정성의 관찰 중점 영역과 관련이 있습니다.

Google Cloud에서 워크로드의 안정성을 유지하고 개선하려면 측정항목, 로그, 트레이스를 사용하여 효과적인 관찰 가능성을 구현해야 합니다.

  • 측정항목은 특정 시간 간격으로 애플리케이션에서 추적하려는 활동을 수치로 측정한 것입니다. 예를 들어 서비스 수준 지표 (SLI)로 사용할 수 있는 요청 비율 및 오류 비율과 같은 기술적 측정항목을 추적할 수 있습니다. 주문 및 수령된 결제와 같은 애플리케이션별 비즈니스 측정항목을 추적해야 할 수도 있습니다.
  • 로그는 애플리케이션 또는 시스템 내에서 발생하는 개별 이벤트의 타임스탬프가 지정된 기록입니다. 이벤트는 실패, 오류 또는 상태 변경일 수 있습니다. 로그에는 측정항목이 포함될 수 있으며 SLI에 로그를 사용할 수도 있습니다.
  • 트레이스는 여러 개의 개별 애플리케이션 또는 애플리케이션 구성요소를 통과하는 단일 사용자 또는 트랜잭션의 여정을 나타냅니다. 예를 들어 이러한 구성요소는 마이크로서비스일 수 있습니다. 트레이스는 여정에서 사용된 구성요소, 병목 현상이 발생한 위치, 여정 소요 시간을 추적하는 데 도움이 됩니다.

측정항목, 로그, trace는 시스템을 지속적으로 모니터링하는 데 도움이 됩니다. 포괄적인 모니터링을 통해 오류가 발생한 위치와 원인을 파악할 수 있습니다. 오류가 발생하기 전에 잠재적인 실패를 감지할 수도 있습니다.

권장사항

잠재적인 오류를 효율적으로 감지하려면 다음 하위 섹션의 권장사항을 고려하세요.

포괄적인 통계 정보 확보

응답 시간 및 오류율과 같은 주요 측정항목을 추적하려면 Cloud MonitoringCloud Logging을 사용하세요. 또한 이러한 도구를 사용하면 측정항목이 워크로드의 요구사항을 일관되게 충족하는지 확인할 수 있습니다.

데이터 기반의 결정을 내리려면 기본 서비스 측정항목을 분석하여 구성요소 종속 항목과 전반적인 워크로드 성능에 미치는 영향을 파악하세요.

모니터링 전략을 맞춤설정하려면 Google Cloud SDK를 사용하여 자체 측정항목을 만들고 게시하세요.

사전 예방적 문제 해결 수행

Google Cloud에서 워크로드의 모든 구성요소에 강력한 오류 처리를 구현하고 로깅을 사용 설정합니다. Cloud Storage 액세스 로그VPC 흐름 로그와 같은 로그를 활성화합니다.

로깅을 구성할 때는 관련 비용을 고려하세요. 로깅 비용을 제어하려면 로그 싱크에서 제외 필터를 구성하여 특정 로그가 저장되지 않도록 할 수 있습니다.

리소스 사용률 최적화

CPU 사용량, 네트워크 I/O 측정항목, 디스크 I/O 측정항목을 모니터링하여 GKE, Compute Engine, Dataproc와 같은 서비스에서 프로비저닝 부족 및 프로비저닝 초과 리소스를 감지합니다. 지원되는 전체 서비스 목록은 Cloud Monitoring 개요를 참고하세요.

알림 우선순위 지정

알림의 경우 중요한 측정항목에 집중하고 적절한 임곗값을 설정하여 알림 피로를 최소화하고 중요한 문제에 시의적절하게 대응합니다. 이러한 타겟팅된 접근 방식을 사용하면 워크로드 안정성을 사전에 유지할 수 있습니다. 자세한 내용은 알림 개요를 참고하세요.