디스크 상태 모니터링

디스크 성능 상태 측정항목을 검토하여 Persistent Disk 또는 Google Cloud Hyperdisk 볼륨 상태를 확인할 수 있습니다. 이 측정항목은 Compute Engine 내에서 부정적인 이벤트가 발생할 때 잠재적으로 디스크 성능이 영향을 받는지 여부를 나타냅니다.

또한 디스크 성능 상태에 영향을 주는 문제는 프로젝트의 Personal Service Health(PSH) 대시보드 또는 Google Cloud Service Health 대시보드에 표시될 수 있습니다.

이 문서에서는 디스크 성능 상태 그리고 이를 사용하여 성능 문제를 해결하는 방법을 설명합니다.

디스크 상태 확인 시기

디스크에 성능 문제가 감지될 경우 디스크 성능 상태 측정항목을 검토하여 디스크 상태를 확인합니다. 디스크 성능 상태 측정항목은 1분 간격으로 업데이트되며 이전 1분 동안의 디스크 성능을 나타냅니다. 디스크 상태 확인 단계는 디스크 성능 상태 보기를 참조하세요.

다음 표에서는 가능한 디스크 성능 상태 값을 요약해서 보여줍니다.

상태	의미
`Healthy`	디스크 성능이 예상한 대로입니다.
`Degraded`	일시적으로 I/O 지연 시간이 예상한 것보다 높게 관측될 수 있습니다.
`Severely degraded`	높은 I/O 지연 시간 또는 기타 오류가 발생합니다.

성능 상태가 Healthy가 아니면 다음 단계를 위해 각 상태 이해를 참조하세요.

성능 상태가 Healthy이면 디스크가 정상적으로 작동 중이며 성능 문제의 다른 원인을 확인해야 합니다. 애플리케이션 또는 운영체제 오류를 확인하고 디스크가 올바르게 최적화되었는지 확인해야 합니다. 최적화 가이드라인은 Hyperdisk 최적화 및 Persistent Disk 최적화를 참조하세요.

디스크 상태와 기타 디스크 성능 측정항목의 관계

성능 상태 측정항목으로 표시되는 디스크 상태는 Google 관점에서 디스크의 내부 상태를 보여줍니다. 디스크 상태가 Degraded 또는 Severely Degraded인 경우 근본 원인은 항상 Compute Engine 인프라 내에 있습니다.

일반적으로는 워크로드를 수정해서 디스크 상태를 변경할 수 없습니다. 하지만 드문 경우에 워크로드 변경으로 내부 문제가 트리거될 수 있으므로, 워크로드를 수정하여 문제를 완화하는 것이 가능할 수 있습니다.

사용 가능한 다른 디스크 성능 측정항목에 대한 자세한 내용은 디스크 성능 측정항목 검토를 참조하세요.

디스크 성능 상태에 영향을 주지 않는 시나리오

디스크 성능은 다음 요소로 인한 성능 문제와 관련이 없습니다.

불완전하거나 불충분한 디스크 최적화
디스크 및 머신 유형과 연결된 성능 한도(선택한 머신 유형이 워크로드의 성능 요구사항을 충족할 수 없는 경우)
워크로드 트래픽으로 인한 디스크 부하 증가
사용자, 애플리케이션, 운영체제 오류
가득 찼거나 손상된 디스크
Hyperdisk 및 Extreme Persistent Disk 볼륨의 경우 불충분하게 프로비저닝된 IOPS 또는 처리량

이러한 경우에는 사용자가 디스크 최적화, 워크로드 수직 확장, 머신 유형 변경, 추가 용량, IOPS, 처리량 프로비저닝과 같은 방법으로 성능을 개선해야 합니다.

Cloud Monitoring에서 디스크 상태 보기

디스크 상태를 보려면 측정항목 탐색기에서 차트를 만듭니다.

필수 역할 및 권한

디스크 성능 상태 측정항목을 확인하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대해 다음 IAM 역할을 부여해 달라고 요청하세요.

모니터링 뷰어(roles/monitoring.viewer)
대시보드에 차트를 저장하려는 경우: 모니터링 편집자(roles/monitoring.editor)

역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

측정항목 탐색기에서 차트 만들기

차트를 만들려면 메뉴 기반 인터페이스, Monitoring Query Language(MQL), PromQL을 사용하여 쿼리를 빌드합니다.

차트에서 하나 이상의 디스크 상태를 보려면 다음 안내를 따릅니다.

Google Cloud 콘솔에서 측정항목 탐색기 페이지로 이동합니다.
측정항목 탐색기로 이동

검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
Google Cloud 콘솔의 툴바에서 Google Cloud 프로젝트를 선택합니다. App Hub 구성의 경우 App Hub 호스트 프로젝트나 앱 지원 폴더의 관리 프로젝트를 선택합니다.
측정항목 요소에서 측정항목 선택 메뉴를 펼치고 필터 표시줄에 VM Instance을 입력한 후 하위 메뉴를 사용하여 특정 리소스 유형과 측정항목을 선택합니다.
1. 활성 리소스 메뉴에서 VM 인스턴스를 선택합니다.
2. 활성 측정항목 카테고리 메뉴에서 인스턴스를 선택합니다.
3. 활성 측정항목 목록에서 디스크 성능 상태를 선택합니다.
4. 적용을 클릭합니다.
이 측정항목의 정규화된 이름은 compute.googleapis.com/instance/disk/performance_status입니다.
데이터 보기 방법을 구성합니다.
집계를 사용 중지합니다. 집계 요소에서 첫 번째 메뉴가 집계되지 않음으로 설정되었고 두 번째 메뉴가 없음으로 설정되었는지 확인합니다.
특정 디스크의 상태를 보려면 device_name으로 필터링합니다.

차트 구성에 대한 자세한 내용은 측정항목 탐색기 사용 시 측정항목 선택을 참조하세요.

MQL

쿼리 편집기를 열고, MQL 쿼리 작성의 단계를 따릅니다.

쿼리 편집기에 쿼리를 입력합니다. 예를 들어 특정 디스크의 성능 상태를 보려면 다음 쿼리를 입력합니다.

    fetch gce_instance
    | metric 'compute.googleapis.com/instance/disk/performance_status'
    | filter metric.device_name == 'DISK_NAME'
    | group_by 1m,
        [value_performance_status_fraction_true:
          fraction_true(value.performance_status)]
    | every 1m

DISK_NAME을 디스크 이름으로 바꿉니다(예: disk-1).

PromQL

쿼리 편집기를 열고 PromQL 쿼리 작성의 단계를 따릅니다.
쿼리 편집기에 쿼리를 입력합니다. 예를 들어 특정 디스크의 성능 상태를 보려면 다음 쿼리를 입력합니다.

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

DISK_NAME을 디스크 이름으로 바꿉니다(예: disk-1).

차트에서 결과를 보면 각 가능한 상태에 대해 하나씩 각 디스크에 3개의 줄이 있습니다. 마찬가지로 테이블에서 쿼리 결과를 보면 테이블에 각 디스크에 대해 3개의 행이 있습니다.

PromQL 또는 MQL로 쿼리를 빌드한 경우 각 행 또는 줄에 1 또는 0 값이 포함됩니다. 메뉴로 빌드한 쿼리의 경우에는 값이 100% 또는 0입니다.

디스크의 현재 상태는 해당 값이 100% 또는 1인 행 또는 줄로 표시됩니다.

예를 들어 다음 스크린샷은 이름이 a-test-VM이고 상태가 Healthy인 디스크의 차트를 보여줍니다.

디스크 상태가 Healthy인 차트를 보여주는 스크린샷

쿼리 결과를 테이블로 볼 때 다음 표는 Healthy 상태인 디스크의 결과 예시입니다.

performance_status	값
`Healthy`	`1`
`Degraded`	`0`
`Severely Degraded`	`0`

다음 스크린샷은 해당 상태가 Degraded이고 이름이 replica-23509인 디스크의 차트를 보여줍니다. 디스크 상태가 Degraded인 차트를 보여주는 스크린샷

각 성능 상태의 의미에 대한 자세한 내용은 각 상태 이해를 참조하세요. 차트를 만든 후에는 나중에 사용할 수 있도록 차트를 대시보드에 저장할 수 있습니다.

부분 결과

다음 표에서와 같이 부분 결과가 쿼리에 포함된 경우의 일반적인 원인은 선택한 표시 기간이 길기 때문입니다. 따라서 Cloud Monitoring에서 데이터가 장기간 집계되었습니다. Healthy 상태의 77% 값은 디스크 상태가 선택한 표시 기간 중 77% 동안 Healthy였음을 의미합니다.

performance_status	값
`Healthy`	`77%`
`Degraded`	`23%`
`Severely Degraded`	`0`

디스크 상태를 보다 세부적으로 확인하려면 표시 기간을 몇 시간 또는 몇 분 정도로 사용하세요.

각 상태 이해

이 섹션에서는 각 상태의 의미와 추가 조치가 필요한 경우에 대해 설명합니다.

`Healthy`

Healthy 상태는 Google 관점에서 디스크가 정상적으로 작동하고 있음을 나타냅니다.

Healthy 디스크에 성능 문제가 있어도 지원팀에 연락하지 마세요. 대신 다음 제안에 따라 디스크 문제를 해결하세요.

지연 시간 및 큐 깊이와 같은 디스크 성능 측정항목을 검토합니다.
워크로드 로그 및 측정항목에서 이상치 및 병목 현상을 확인합니다.
Persistent Disk를 사용 중이면 프로비저닝된 용량이 디스크의 성능 요구를 충족할 수 있는지 확인합니다. Hyperdisk 또는 Extreme Persistent Disk 볼륨을 사용 중이면 프로비저닝한 IOPS 및 처리량이 충분한지 확인합니다.
디스크 최적화 가이드라인을 따랐는지 확인합니다. 자세한 내용은 Hyperdisk 최적화 및 Persistent Disk 최적화를 참조하세요.

`Degraded`

디스크 상태가 Degraded인 경우에는 일반적으로 지원팀에 연락할 필요가 없습니다. Degraded status는 일반적으로 Compute Engine 인프라에서 정상적인 내부 유지보수로 인해 발생합니다.

상태가 Degraded인 동안에는 디스크 성능에 대한 영향이 관찰되지 않을 수 있습니다. 성능 문제와 Degraded 상태가 동시에 발생하더라도 성능 문제는 실제로 Degraded 상태로 인해 발생하지 않을 수 있습니다.

드물지만 성능 문제가 Degraded 상태로 인해 발생하더라도 그 영향을 일반적으로 일시적입니다. 디스크 상태는 몇 분 내에 Healthy로 돌아갑니다.

디스크에 성능 문제가 없으면 Degraded 상태를 무시해도 됩니다.

성능 문제가 있을 때 수행할 작업

디스크 성능 상태가 Degraded이고 성능 문제가 관측되는 경우 다음 단계를 수행하세요.

PSH 대시보드에서 디스크에 영향을 주는 문제가 있는지 확인합니다. 문제가 있으면 Google이 문제를 인식하고 해결하는 중이므로 지원팀에 연락하지 마세요.
알려진 문제가 없으면 최소 5분 이상 기다려서 성능 문제가 스스로 해결되는지 확인합니다.
5분이 지나도 성능 문제가 해결되지 않고 그리고 상태가 여전히 Degraded이면 성능 문제의 원인이 충분하지 않은 디스크 최적화 때문이 아닌지 확인합니다. 예를 들어 디스크의 지연 시간과 큐 깊이를 확인합니다. 성능 문제가 Degraded 상태와 관련이 없고 우연적으로 발생했을 수 있습니다. 이렇게 하려면 디스크 측정항목 및 성능 최적화 가이드라인을 검토하세요.
성능 문제가 지속되고 다음 조건이 모두 충족되었으면 지원팀에 문의할 수 있습니다.
- 디스크 상태가 5분 이상 Degraded 상태로 유지됩니다.
- 디스크가 최적화되었고 병목 현상 또는 애플리케이션 과부하와 같은 기타 문제의 확인을 완료하여 워크로드 문제가 아님을 합리적으로 확신할 수 있습니다.
- PSH 대시보드에 알림이 없습니다.

Degraded 상태에 대한 알림을 직접 만드는 것보다는 상위 수준의 애플리케이션 상태에 대해 알림을 설정하고 이 측정항목을 사용해서 문제를 디버깅하는 것이 좋습니다.

`Severely Degraded`

성능 상태가 Severely Degraded인 디스크는 성능 문제가 발생 중임을 나타냅니다. 이 문제는 특정 문제 또는 오류 때문일 수 있으며 PSH 대시보드 또는 Google Cloud 서비스 상태 대시보드에 이미 표시되었을 수 있습니다.

필요한 조치

디스크 성능 상태가 Severely Degraded이면 다음 단계를 수행합니다.

PSH 대시보드 및 일반 Google Cloud 상태 대시보드에서 디스크에 영향을 주는 문제가 있는지 확인합니다. 문제가 있으면 Google이 문제를 인식하고 해결하는 중이므로 지원팀에 연락하지 마세요.
두 대시보드 모두에 알려진 문제가 없으면 지원팀에 지원을 요청하세요.

결정 트리

다음 다이어그램은 디스크에 성능 문제가 있는 경우의 진행 방법과 이전 섹션에서 설명한 정보를 요약해서 보여줍니다.

디스크 성능 상태 측정항목을 해석하기 위해 수행할 단계를 설명하는 플로우 차트

플로우 차트에 표시된 것처럼 PSH 및 Cloud 서비스 대시보드에 알려진 알림이 없고 디스크 상태가 Severely Degraded일 때만 지원팀에 연락해야 합니다. 디스크가 Degraded이면 다음 조건이 모두 충족된 경우에만 지원팀에 연락하세요.

디스크가 5분 넘게 Degraded입니다.
네트워킹 문제와 같은 워크로드 오류 또는 구성 오류 문제는 제외되었습니다.
애플리케이션, 워크로드, 디스크 수준에서 추가적인 최적화 작업을 수행할 수 없습니다.
디스크의 모든 측정항목을 검토했습니다.
워크로드 및 가상 머신(VM) 로그를 조사했습니다.

다음 단계

측정항목 탐색기로 차트 만들기 및 차트에 필터 추가로 쿼리 결과를 미세 조정하는 방법 자세히 알아보기
Personal Service Health 대시보드 및 Google Service Health에서 현재 및 과거 서비스 상태 이벤트 확인
성능 최적화 가이드라인은 Hyperdisk 최적화 및 Persistent Disk 최적화를 참조하세요.