Cloud Monitoring으로 인스턴스 모니터링

이 문서에서는 Cloud Monitoring 콘솔을 사용하여 Spanner 인스턴스를 모니터링하는 방법을 설명합니다.

Cloud Monitoring 콘솔은 Spanner를 위한 몇 가지 모니터링 도구를 제공합니다.

프로그래매틱 방식으로 Spanner를 모니터링하려면 Stackdriver Monitoring용 Cloud 클라이언트 라이브러리를 사용하여 측정항목을 검색합니다.

Cloud Monitoring 선별된 대시보드 사용

Cloud Monitoring은 다음과 같은 Spanner 인스턴스의 주요 정보를 요약한 선별된 대시보드를 제공합니다.

  • 이슈: 사용자가 만든 모니터링 알림(대기 중, 진행 중, 해결됨)
  • 이벤트: Spanner 감사 로그의 목록(사용 설정되어 있고 사용 가능한 경우)
  • 인스턴스: Spanner 인스턴스에 대한 핵심 요약(컴퓨팅 용량, 데이터베이스 수, 인스턴스 상태 포함)
  • 처리량 및 스토리지 사용을 집계한 차트

Spanner 대시보드를 보려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에서 Monitoring을 선택하거나 다음 버튼을 사용합니다.

    모니터링으로 이동

  2. 탐색 창에 리소스가 표시되면 리소스를 선택하고 Cloud Spanner를 선택합니다. 그렇지 않으면 대시보드를 선택한 다음 Cloud Spanner라는 대시보드를 선택합니다.

인스턴스 및 데이터베이스 세부정보 보기

Spanner용으로 선별된 대시보드를 열면 모든 인스턴스의 집계된 데이터가 표시됩니다. 인스턴스에서 인스턴스 이름을 클릭하여 특정 인스턴스의 세부정보를 볼 수 있습니다.

대시보드는 인스턴스 메타데이터, 인스턴스 내의 데이터베이스, 그리고 다양한 측정항목 차트 등의 정보를 리전별로 구분하여 표시합니다.

인스턴스 대시보드 페이지에서 인스턴스의 특정 데이터베이스에 대한 차트를 볼 수도 있습니다.

  1. 오른쪽의 인스턴스 측정항목 차트 위에 있는 데이터베이스 측정항목을 클릭합니다.

  2. 분석 선택 드롭다운 목록에서 검사할 데이터베이스를 선택합니다.

    Cloud Monitoring 콘솔에 데이터베이스의 차트가 표시됩니다.

Spanner 측정항목에 대한 커스텀 차트 만들기

Cloud Monitoring을 사용하여 Spanner 측정항목에 대해 커스텀 차트를 만들 수 있습니다. 측정항목 탐색기를 사용하여 임시 차트를 만들거나 커스텀 대시보드에 표시되는 차트를 만들 수 있습니다.

특히 Cloud Monitoring에서는 2개 이상의 측정항목이 서로 연관되어 있는지 여부를 보여주는 커스텀 차트를 만들 수 있습니다. 예를 들어 Spanner 인스턴스에서 인스턴스에 컴퓨팅 용량이 더 필요하거나 일부 쿼리가 CPU 사용률이 높음을 표시하여 CPU 사용률지연 시간 사이의 상관 관계를 확인할 수 있습니다.

이 예시를 시작하려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에서 Monitoring을 선택하거나 다음 버튼을 사용합니다.

    모니터링으로 이동

  2. 측정항목 탐색기가 탐색 창에 표시되었으면 이를 선택합니다. 아니면 리소스를 선택한 다음 측정항목 탐색기를 선택합니다.

  3. 보기 옵션 탭을 클릭한 다음 Y축의 로그 배율 체크박스를 선택합니다. 이 옵션을 사용하면 한 측정항목이 다른 측정항목보다 훨씬 더 큰 값을 가질 때 여러 측정항목을 비교할 수 있습니다.

  4. 오른쪽 창 위의 드롭다운 목록에서 을 선택합니다.

  5. 측정항목 탭을 클릭합니다. 이제 차트에 측정항목을 추가할 수 있습니다.

지연 시간 측정항목을 차트에 추가하려면 다음 단계를 따르세요.

  1. 리소스 유형 및 측정항목 찾기 입력란에 spanner.googleapis.com/api/request_latencies 값을 입력하고 상자 아래에 표시되는 행을 클릭합니다.
  2. 필터 입력란에 instance_id 값을 입력한 다음 검토할 인스턴스 ID를 입력하고 적용을 클릭합니다.
  3. 애그리게이터 드롭다운 목록에서 max를 클릭합니다.
  4. 선택사항: 지연 시간 백분위를 변경합니다.

    1. 고급 옵션 표시를 클릭합니다.
    2. 정렬 드롭다운 목록을 클릭한 다음 보려는 지연 백분위를 클릭합니다.

      대부분의 경우 일반적인 지연 시간을 확인하려면 50번째 백분위수 지연 시간을, 요청 지연 속도가 가장 느린 1%의 지연 시간을 확인하려면 99번째 백분위수를 확인해야 합니다.

차트에 CPU 사용량 측정항목을 추가하려면 다음 단계를 따르세요.

  1. 측정항목 추가를 클릭합니다.
  2. 리소스 유형 및 측정항목 찾기 입력란에 spanner.googleapis.com/instance/cpu/utilization 값을 입력하고 상자 아래에 표시되는 행을 클릭합니다.
  3. 필터 입력란에 instance_id 값을 입력한 다음 검토할 인스턴스 ID를 입력하고 적용을 클릭합니다.
  4. 애그리게이터 드롭다운 목록에서 max를 클릭합니다.

이제 Spanner 인스턴스의 CPU 사용률 및 지연 시간 측정항목을 보여주는 차트가 표시됩니다. 두 측정항목이 동시에 예상보다 높은 경우 문제를 해결하기 위해 추가 조치를 취할 수 있습니다.

커스텀 차트 만들기에 대한 자세한 내용은 Cloud Monitoring 문서를 참조하세요.

Spanner 측정항목에 대한 알림 만들기

Spanner 인스턴스를 만들 때 인스턴스의 컴퓨팅 용량을 선택합니다. 인스턴스의 워크로드가 변경되면 Spanner는 인스턴스의 컴퓨팅 용량을 자동으로 조정하지 않습니다. 따라서 인스턴스가 권장 최대 CPU 사용량 권장 저장 용량 한도 내에 있도록 여러 알림을 설정해야 합니다.

다음 예시에서는 일부 Spanner 측정항목에 대한 알림 정책을 설정하는 방법을 보여줍니다. 사용 가능한 측정항목의 전체 목록은 Spanner 측정항목 목록을 참조하세요.

우선순위가 높은 CPU

Spanner에 대한 높은 우선 순위 CPU 사용률이 권장 기준을 초과할 때 트리거되는 알림 정책을 만들려면 다음 설정을 사용하세요.

새 조건
필드

리소스 및 측정항목 리소스 메뉴에서 Cloud Spanner 인스턴스를 선택합니다.
측정항목 카테고리 메뉴에서 인스턴스를 선택합니다.
측정항목 메뉴에서 우선순위별 CPU 사용률을 선택합니다.

(측정항목 유형은 spanner.googleapis.com/instance/cpu/utilization_by_priority입니다.)
필터 instance_id = YOUR_INSTANCE_ID
priority = high
시계열
시계열 그룹화 기준
멀티 리전 인스턴스의 경우 location,
리전 인스턴스의 경우 비워둡니다.
시계열
시계열 집계
sum
순환 기간 10 m
순환 윈도우 함수 mean
알림 트리거 구성
필드

조건 유형 Threshold
알림 트리거 Any time series violates
기준 위치 Above threshold
기준 값 멀티 리전 인스턴스의 경우 45%,
리전 인스턴스의 경우 65%
재테스트 범위 10 minutes

24시간 이동 평균 CPU

Spanner에 대한 CPU 사용률의 24시간 이동 평균이 권장 기준을 초과할 때 트리거되는 알림 정책을 만들려면 다음 설정을 사용하세요.

새 조건
필드

리소스 및 측정항목 리소스 메뉴에서 Cloud Spanner 인스턴스를 선택합니다.
측정항목 카테고리 메뉴에서 인스턴스를 선택합니다.
측정항목 메뉴에서 평활화된 CPU 사용률을 선택합니다.

(측정항목 유형은 spanner.googleapis.com/instance/cpu/smoothed_utilization입니다.)
필터 instance_id = YOUR_INSTANCE_ID
시계열
시계열 집계
sum
순환 기간 10 m
순환 윈도우 함수 mean
알림 트리거 구성
필드

조건 유형 Threshold
알림 트리거 Any time series violates
기준 위치 Above threshold
기준 90%
재테스트 범위 10 minutes

스토리지

Spanner 인스턴스의 스토리지가 권장 기준을 초과할 때 트리거되는 알림 정책을 만들려면 다음 설정을 사용하세요.

새 조건
필드

리소스 및 측정항목 리소스 메뉴에서 Cloud Spanner 인스턴스를 선택합니다.
측정항목 카테고리 메뉴에서 인스턴스를 선택합니다.
측정항목 메뉴에서 사용된 스토리지를 선택합니다.

(측정항목 유형은 spanner.googleapis.com/instance/storage/utilization입니다.)
필터 instance_id = YOUR_INSTANCE_ID
시계열
시계열 집계
sum
순환 기간 10 m
순환 윈도우 함수 max
알림 트리거 구성
필드

조건 유형 Threshold
조건 트리거 Any time series violates
기준 위치 Above threshold
기준 값 기준점을 노드당 최대 저장용량의 75%에 노드 수를 곱한 값으로 설정합니다. 현재 노드 한도는 Spanner 할당량 및 한도를 참조하세요.
재테스트 범위 10 minutes

다음 단계