맞춤설정 가능한 모니터링 대시보드로 시스템 관측 가능성을 향상시키는 Cloud Storage
Subodh Bhargava
Product Manager, Google Cloud Storage
Joy Wang
Product Manager
* 본 아티클의 원문은 2022년 11월 15일 Google Cloud 블로그(영문)에 게재되었습니다.
Google Cloud Storage는 비정형 데이터를 저장하고 사용자가 원하는 만큼 데이터를 가져올 수 있는 관리형 서비스입니다. Cloud Storage는 활용도가 높은 기본 서비스이기 때문에 스토리지 관측 가능성이 스토리지 엔지니어와 관리자의 일상적인 운영 업무에 매우 중요하며 비즈니스의 확장성과 지속 가능성을 위해서도 중요합니다.
스토리지 관측 가능성과 관련해 Cloud Storage 사용자들은 다음과 같은 질문을 합니다.
- 스토리지 프로젝트 및 버킷 관측을 시작하기 위한 권장사항은 무엇인가요?
- 문제를 사전에 식별하고 해결하기 위해 모니터링해야 할 가장 중요한 운영 측정항목/로그는 무엇인가요?
- 내가 관심을 두고 있는 스토리지 측정항목에 대한 알림을 만들려면 어떻게 하면 되나요? 스토리지 프로젝트 안에서 알림을 확인하거나 버킷에 대한 알림을 볼 수 있나요?
또한 사용자들은 여러 관측 가능성 도구를 오가야 하기 때문에 다양한 모니터링 플랫폼 간에 이동하는 동안 컨텍스트를 놓치는 경우가 많다고 말합니다.
오늘 Google에서는 프로젝트 수준과 버킷 수준 모두에서 사용할 수 있는 새로운 Cloud Storage용 모니터링 대시보드를 공개 미리보기 버전으로 출시한다는 기쁜 소식을 전해드립니다.
이제 모든 Cloud Storage 사용자가 왼쪽 탐색 메뉴에서 모니터링 탭을 통해 새 대시보드를 이용할 수 있습니다.
니즈에 따른 고도의 맞춤설정
Google은 모든 사용자의 니즈를 충족할 수 있는 단일 관측 가능성 도구란 없다는 사실을 잘 알고 있습니다. 사용자가 자신만의 대시보드 버전을 만들고 기본 뷰로 설정할 수 있도록 대시보드를 컨텍스트에 따라 맞춤설정할 수 있게 만든 이유가 바로 여기에 있습니다. 모니터링 편집자 또는 소유자 액세스 권한이나 프로젝트 편집자 또는 소유자 액세스 권한이 있다면 전에 만든 알림 정책에서 알림 차트를 추가하거나 즉시 사용 가능한 대시보드를 맞춤설정하여 알림을 만들 수 있습니다. 맞춤설정된 대시보드에 알림 차트를 추가하면 Cloud Storage 모니터링 페이지에서 컨텍스트별로 알림을 직접 확인할 수 있습니다. 또한 Google Cloud 콘솔의 스토리지 페이지를 벗어나지 않고도 대시보드에 여러 서비스의 측정항목을 추가하여 상관관계를 관측할 수 있습니다.
로그 패널에서는 관심을 두고 있는 가장 중요한 로그를 반영하도록 로그 뷰어 쿼리를 수정하고 해당 쿼리를 스토리지 프로젝트 맞춤설정 대시보드에서 유지할 수 있습니다. 동일한 대시보드에서 측정항목과 로그를 살펴볼 수 있어 컨텍스트 전환이 줄어들고 보다 효과적으로 문제를 해결할 수 있습니다.
맞춤설정 가능한 대시보드를 사용하면 플랫폼의 스토리지 페이지 내에서 문제 해결 과정을 수행할 수 있으므로 여러 모니터링 도구나 모니터링 플랫폼 간에 이동할 필요성이 줄어듭니다.
즉시 사용 가능한 운영 측정항목
스토리지 관측 가능성에는 여러 가지 측면이 있는데 새 모니터링 대시보드는 문제 해결에 초점을 맞추고 있습니다. 여기에는 모든 스토리지 사용자가 Google Cloud에서 스토리지 서비스를 시작할 때 자동으로 받게 되는 즉시 사용 가능한 스토리지 시스템 측정항목과 스토리지 시스템 로그가 포함됩니다.
Cloud Monitoring UI에서 차트 위로 마우스를 가져가 값을 읽거나 범례를 펼치고, 기간을 확대 또는 축소하여 데이터를 보다 상세하게 또는 간략하게 살펴보고, MQL 또는 PromQL 같은 고급 쿼리를 사용할 수 있습니다. 실제로 Google Cloud 콘솔의 스토리지 페이지 내에서 Cloud Monitoring 대시보드의 모든 기능을 사용할 수 있습니다.
대시보드에서 사용할 수 있는 차트와 로그 패널에 대해 자세히 살펴보도록 하겠습니다.
차트
Storage API 요청 수의 서버 오류율: 모든 서버 측 5xx 오류를 표시하도록 필터링합니다.
Storage API 요청 수의 클라이언트 오류율: 응답 코드를 포함해 모든 클라이언트 측 4xx 오류를 표시하도록 필터링합니다.
읽기 오류가 가장 많이 발생한 상위 5개 버킷: 응답 코드가 INTERNAL 및 UNAVAILABLE 오류인 List 및 Read 메서드로 필터링되며 상위 5개 버킷에서 측정됩니다. 이러한 오류가 발생한 버킷을 더 많이 표시하도록 차트를 손쉽게 맞춤설정할 수 있습니다.
쓰기 오류가 가장 많이 발생한 상위 5개 버킷: 읽기 오류가 가장 많이 발생하는 경우와 마찬가지로 이 차트는 응답 코드가 INTERNAL 및 UNAVAILABLE 오류인 WriteObject 메서드로 필터링됩니다.
총 Read/List/Get 요청 수: Read, List, Get 메서드의 API 요청 수로 필터링됩니다. 특정 시간 동안 이 3가지 메서드에 대해 발생한 총 요청 수와 API 메서드의 위치별로 분류한 총개수가 표시됩니다.
총 쓰기 요청 수: 모든 API 요청의 Write 메서드로 필터링되며 쓰기 요청의 총개수가 위치별로 분류되어 표시됩니다.
네트워크의 데이터 인그레스 속도: 수신 바이트 속도를 표시하여 프로젝트당 또는 버킷당 인그레스 속도를 쉽게 파악할 수 있습니다.
- 프로젝트의 총 수신 바이트 볼륨을 표시하도록 이 차트를 맞춤설정할 수 있습니다.
- 버킷 수준 대시보드에서는 프로젝트의 버킷당 인그레스 속도를 표시하도록 차트가 필터링됩니다.
네트워크의 데이터 이그레스 속도: 전송 바이트 속도를 표시하여 프로젝트당 또는 버킷당 이그레스 속도를 쉽게 파악할 수 있습니다.
로그 패널
GCS 로그 및 감사 로그 위젯
- 이 2가지 로그 위젯은 심각도가 오류와 같거나 큰 GCS 로그 및 GCS 감사 로그로 필터링됩니다. 심각도가 오류, 심각, 알림, 긴급에 해당하는 로그가 로그 패널에 표시됩니다.
- 위젯에서 로그 항목을 펼쳐 '로그 탐색기에서 보기' 버튼을 클릭하면 로그 탐색기 뷰로 쉽게 이동할 수 있습니다.
프로젝트 수준에서 사용할 수 있는 모든 차트가 버킷 수준에서도 제공되며 특정 버킷으로 대시보드가 필터링됩니다. 버킷 수준 대시보드의 맞춤설정이 생성되면 프로젝트 내의 모든 버킷 수준 대시보드에 맞춤설정된 버킷 수준 대시보드가 자동으로 표시됩니다. 간편하게 다른 버킷으로 이동하고 드롭다운 메뉴에서 맞춤설정된 대시보드를 선택해 확인할 수 있습니다.
지금 미리보기로 시작하기
Cloud Storage UI의 왼쪽 탐색 메뉴에서 모니터링 탭을 클릭하면 지금 바로 미리보기를 시작할 수 있습니다. 모든 Cloud Storage 사용자에게 미리보기가 제공됩니다.
이 대시보드를 모든 사용자에게 공개적으로 제공하게 된 것을 기쁘게 생각하며 여러분의 소중한 제안과 의견을 기다리겠습니다.
각 대시보드에서 '의견 보내기' 버튼을 사용하면 의견을 제출할 수 있습니다. 보내주신 모든 제안을 신중하게 검토하고 모든 사용자가 Cloud Storage 내에서 일상적인 운영을 분석하는 데 도움이 되도록 대시보드를 지속적으로 개선해 나가겠습니다.