디스크 상태 모니터링


디스크 성능 상태 측정항목을 검토하여 Persistent Disk 또는 Google Cloud 하이퍼디스크 볼륨의 상태를 확인할 수 있습니다. 이 측정항목은 디스크의 성능이 Compute Engine 내의 부정적 이벤트의 영향을 받을 수 있는지 여부를 나타냅니다.

디스크 성능 상태에 영향을 미치는 문제는 프로젝트의 Personal Service Health(PSH) 대시보드 또는 Google Cloud Service Health 대시보드에도 표시될 수 있습니다.

이 문서에서는 디스크 성능 상태와 이를 사용하여 성능 문제를 해결하는 방법을 설명합니다.

디스크 상태를 확인해야 하는 경우

디스크에 성능 문제가 있는 경우 디스크 성능 상태 측정항목을 검토하여 디스크 상태를 확인합니다. 디스크 성능 상태 측정항목은 1분마다 업데이트되며 이전 1분 동안의 디스크 성능을 나타냅니다. 디스크 상태를 확인하는 단계는 디스크 성능 상태 보기를 참고하세요.

다음 표에는 디스크 성능 상태의 가능한 값이 요약되어 있습니다.

상태 의미
Healthy 디스크 성능이 예상대로 작동합니다.
Degraded 일시적으로 예상보다 I/O 지연 시간이 길어질 수 있습니다.
Severely degraded I/O 지연 시간이 길거나 기타 오류가 발생합니다.

실적 상태가 Healthy가 아닌 경우 다음 단계에 관한 각 상태 이해하기를 참고하세요.

성능 상태가 Healthy인 경우 디스크가 정상적으로 작동하는 것이므로 성능 문제의 다른 원인을 확인해야 합니다. 애플리케이션 또는 운영체제 오류가 있는지 확인하고 디스크가 올바르게 최적화되었는지 확인해야 합니다. 최적화 가이드라인은 하이퍼디스크 최적화Persistent Disk 최적화를 참고하세요.

디스크 상태와 다른 디스크 성능 측정항목의 관계

성능 상태 측정항목에 표시된 디스크 상태는 Google의 관점에서 디스크의 내부 상태를 보여줍니다. 디스크 상태가 Degraded 또는 Severely Degraded인 경우 근본 원인은 항상 Compute Engine 인프라에 있습니다.

일반적으로 워크로드를 수정하여 디스크 상태를 변경할 수는 없습니다. 그러나 드물지만 워크로드 변경으로 인해 내부 문제가 발생할 수 있으므로 워크로드를 수정하여 문제를 완화할 수 있습니다.

사용 가능한 다른 디스크 성능 측정항목에 대한 자세한 내용은 디스크 성능 측정항목 검토를 참고하세요.

디스크 성능 상태에 영향을 미치지 않는 시나리오

디스크 성능 상태는 다음 요인으로 인한 성능 문제와 관련이 없습니다.

  • 디스크 최적화가 불완전하거나 불충분함
  • 디스크 및 머신 유형과 관련된 성능 제한 (선택한 머신 유형이 워크로드의 성능 요구사항을 충족할 수 없는 경우)
  • 워크로드 트래픽으로 인한 디스크 부하 증가
  • 사용자, 애플리케이션 또는 운영체제 오류
  • 디스크가 가득 차거나 손상됨
  • 하이퍼디스크 및 익스트림 영구 디스크 볼륨의 경우 프로비저닝된 IOPS 또는 처리량이 충분하지 않습니다.

이러한 경우 디스크 최적화, 워크로드 확장, 머신 유형 변경, 더 많은 용량, IOPS 또는 처리량 프로비저닝과 같은 방법으로 성능을 개선하는 것은 개발자의 책임입니다.

Cloud Monitoring에서 디스크 상태 보기

디스크 상태를 보려면 측정항목 탐색기에서 차트를 만듭니다.

필수 역할 및 권한

디스크 성능 상태 측정항목을 확인하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 다음 IAM 역할을 부여해 달라고 요청하세요.

역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.

측정항목 탐색기에서 차트 만들기

차트를 만들려면 메뉴 기반 인터페이스, 모니터링 쿼리 언어 (MQL) 또는 PromQL을 사용하여 쿼리를 빌드합니다.

차트에서 하나 이상의 디스크 상태를 보려면 다음 안내를 따르세요.
  1. Google Cloud 콘솔에서  측정항목 탐색기 페이지로 이동합니다.

    측정항목 탐색기로 이동

    검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.

  2. 측정항목 요소에서 측정항목 선택 메뉴를 펼치고 필터 표시줄에 VM Instance을 입력한 후 하위 메뉴를 사용하여 특정 리소스 유형과 측정항목을 선택합니다.
    1. 활성 리소스 메뉴에서 VM 인스턴스를 선택합니다.
    2. 활성 측정항목 카테고리 메뉴에서 인스턴스를 선택합니다.
    3. 활성 측정항목 메뉴에서 디스크 성능 상태를 선택합니다.
    4. 적용을 클릭합니다.
    이 측정항목의 정규화된 이름은 compute.googleapis.com/instance/disk/performance_status입니다.
  3. 데이터 보기 방법을 구성합니다.
    집계를 사용 중지합니다. 집계 요소에서 첫 번째 메뉴가 집계되지 않음으로, 두 번째 메뉴가 없음으로 설정되어 있는지 확인합니다.
    특정 디스크의 상태를 보려면 device_name로 필터링합니다.

    차트 구성에 대한 자세한 내용은 측정항목 탐색기 사용 시 측정항목 선택을 참조하세요.

MQL

  1. 쿼리 편집기 열기: MQL 쿼리 작성의 단계를 따릅니다.

  2. 쿼리 편집기에 쿼리를 입력합니다. 예를 들어 특정 디스크의 성능 상태를 보려면 다음 쿼리를 입력합니다.

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    DISK_NAME을 디스크 이름으로 바꿉니다(예: disk-1).

PromQL

  1. 쿼리 편집기 열기: PromQL 쿼리 작성의 단계를 따릅니다.

  2. 쿼리 편집기에 쿼리를 입력합니다. 예를 들어 특정 디스크의 성능 상태를 보려면 다음 쿼리를 입력합니다.

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

DISK_NAME을 디스크 이름으로 바꿉니다(예: disk-1).

차트에서 결과를 보면 디스크마다 가능한 상태별로 하나씩 3개의 선이 표시됩니다. 마찬가지로 테이블에서 쿼리 결과를 보면 디스크당 3개의 행이 표에 있습니다.

PromQL 또는 MQL로 쿼리를 빌드한 경우 각 행 또는 줄의 값은 1 또는 0입니다. 메뉴로 빌드된 쿼리의 경우 값은 100% 또는 0입니다.

디스크의 현재 상태는 값이 100% 또는 1인 행 또는 선으로 표시됩니다.

예를 들어 다음 스크린샷은 상태가 Healthya-test-VM이라는 디스크의 차트를 보여줍니다.

디스크 상태가 정상인 차트를 보여주는 스크린샷

쿼리 결과를 표로 보면 다음 표와 같이 Healthy인 디스크의 결과를 확인할 수 있습니다.

performance_status
Healthy 1
Degraded 0
Severely Degraded 0

다음 스크린샷은 상태가 Degradedreplica-23509라는 디스크의 차트를 보여줍니다. 디스크 상태가 'Degraded(저하됨)'인 차트를 보여주는 스크린샷

각 실적 상태의 의미에 관한 자세한 내용은 각 상태 이해하기를 참고하세요. 차트를 만든 후 나중에 사용할 수 있도록 대시보드에 저장할 수 있습니다.

부분 결과

쿼리에 다음 표와 같이 소수점 결과가 포함된 경우 일반적으로 선택한 표시 기간이 길기 때문입니다. 그 결과 Cloud Monitoring은 시간 경과에 따라 데이터를 집계했습니다. Healthy 상태의 값이 77%이면 디스크 상태가 선택한 표시 기간의 Healthy77% 였음을 의미합니다.

performance_status
Healthy 77%
Degraded 23%
Severely Degraded 0

디스크 상태를 더 세부적으로 확인하려면 몇 시간 또는 몇 분의 표시 기간을 사용하세요.

각 상태 이해하기

이 섹션에서는 각 상태의 의미와 추가 조치를 취해야 하는 경우를 설명합니다.

Healthy

Healthy 상태는 Google의 관점에서 디스크가 정상적으로 작동하고 있음을 나타냅니다.

Healthy 디스크에 성능 문제가 있는 경우 지원팀에 문의하지 마세요. 대신 다음 제안사항 중 일부를 사용하여 디스크 문제를 해결하세요.

  • 지연 시간 및 대기열 깊이와 같은 디스크 성능 측정항목을 검토합니다.
  • 작업 부하의 로그 및 측정항목에서 이상치와 병목 현상을 확인합니다.
  • Persistent Disk를 사용하는 경우 프로비저닝된 용량이 디스크의 성능 요구사항을 충족하는지 확인합니다. 하이퍼디스크 또는 익스트림 영구 디스크 볼륨을 사용하는 경우 충분한 IOPS 및 처리량을 프로비저닝했는지 확인합니다.
  • 디스크 최적화 가이드라인을 따랐는지 확인하세요. 자세한 내용은 하이퍼디스크 최적화영구 디스크 최적화를 참고하세요.

Degraded

디스크 상태가 Degraded인 경우 일반적으로 지원팀에 문의할 필요가 없습니다. Degraded status은 일반적으로 Compute Engine 인프라의 일반적인 내부 유지보수로 인해 발생합니다.

상태가 Degraded인 동안 디스크의 성능에 영향을 미치지 않을 수 있습니다. 성능 문제와 Degraded 상태가 시간적으로 상관관계가 있는 경우에도 성능 문제는 여전히 Degraded 상태와 관련이 없을 수 있습니다.

Degraded 상태로 인해 성능 문제가 발생하는 경우는 드물지만, 영향을 받는 기간은 일반적으로 일시적입니다. 디스크 상태가 몇 분 이내에 Healthy로 되돌아갑니다.

디스크에 성능 문제가 없는 경우 Degraded 상태는 무시해도 됩니다.

실적 문제가 발생한 경우 취해야 할 조치

디스크의 성능 상태가 Degraded이고 성능 문제가 발생한 경우 다음 단계를 따르세요.

  1. PSH 대시보드에서 디스크에 영향을 미치는 이슈가 있는지 확인합니다. 문제가 발생한 경우 Google에서 이미 인지하고 문제를 해결하기 위해 노력하고 있으므로 지원팀에 문의하지 마세요.
  2. 알려진 문제가 없는 경우 성능 문제가 저절로 해결될 때까지 5분 이상 기다립니다.
  3. 5분이 지나도 성능 문제가 해결되지 않고 상태가 여전히 Degraded인 경우 디스크가 충분히 최적화되지 않아 성능 문제가 발생한 것이 아닌지 확인합니다. 예를 들어 디스크의 지연 시간과 대기열 깊이를 확인합니다. 성능 문제와 Degraded 상태가 관련이 없고 우연의 일치일 수 있습니다. 이렇게 하려면 디스크의 측정항목성능 최적화 가이드라인을 검토하세요.

  4. 성능 문제가 계속되고 다음 조건 전체가 충족되는 경우 지원팀에 문의하여 도움을 받을 수 있습니다.

    • 디스크 상태가 5분 넘게 Degraded입니다.
    • 디스크를 최적화하고 병목 현상이나 오버로드된 애플리케이션과 같은 다른 문제가 없음을 확인했으므로 워크로드 문제가 아니라고 확신합니다.
    • PSH 대시보드에 알림이 없음

Degraded 상태에 대한 알림을 직접 만드는 대신 상위 수준의 애플리케이션 상태에 대한 알림을 만들고 이 측정항목을 사용하여 문제를 디버그하는 것이 좋습니다.

Severely Degraded

성능 상태가 Severely Degraded인 디스크에 성능 문제가 있습니다. 이 문제는 이슈나 오류로 인해 발생할 수 있으며 PSH 대시보드 또는 Google Cloud 서비스 상태 대시보드에 이미 표시되어 있을 수 있습니다.

필요한 조치

디스크의 성능 상태가 Severely Degraded인 경우 다음 단계를 따르세요.

  1. PSH 대시보드와 일반 Google Cloud 상태 대시보드에서 디스크에 영향을 미치는 문제를 확인합니다. 문제가 발생한 경우 Google에서 이미 인지하고 문제를 해결하기 위해 노력하고 있으므로 지원팀에 문의하지 마세요.
  2. 두 대시보드에 알려진 문제가 없는 경우 지원팀에 문의하여 도움을 받으세요.

결정 트리

다음 다이어그램은 디스크에 성능 문제가 있는 경우 진행하는 방법을 보여주고 이전 섹션의 정보를 요약합니다.

디스크 성능 상태 측정항목을 해석하기 위해 취해야 할 단계를 설명하는 플로우 차트입니다.

플로우 차트에 표시된 대로 PSH 및 Cloud 서비스 대시보드에 알려진 알림이 없고 디스크 상태가 Severely Degraded인 경우에만 지원팀에 문의해야 합니다. 디스크가 Degraded인 경우 다음 조건을 모두 충족하는 경우에만 지원팀에 문의하세요.

  • 디스크가 5분 넘게 Degraded 상태입니다.
  • 워크로드 오류 또는 구성 오류 (예: 네트워킹 문제)를 배제했습니다.
  • 애플리케이션, 워크로드 또는 디스크 수준에서 추가 최적화를 실행할 수 없습니다.
  • 디스크의 모든 측정항목을 검토했습니다.
  • 워크로드 및 가상 머신 (VM) 로그를 검사했습니다.

다음 단계