Google Distributed Cloud 관측 가능성 문제 해결

이 문서는 Google Distributed Cloud의 모니터링 가능성 문제를 해결하는 데 도움이 됩니다. 이러한 문제가 발생하면 제안된 해결 방법을 검토하세요.

추가 지원이 필요하면 Cloud Customer Care에 연락합니다.

다음을 비롯한 지원 리소스에 관한 자세한 내용은 지원 받기를 참조하세요.

지원 케이스를 여는 요구사항
로그 및 측정항목과 같이 문제를 해결하는 데 도움이 되는 도구
VMware용 Google Distributed Cloud(소프트웨어 전용)의 지원되는 구성요소, 버전, 기능

Cloud 감사 로그가 수집되지 않음

클러스터 구성의 cloudAuditLogging 섹션에서 Cloud 감사 로그가 사용 설정되었는지 확인합니다. 프로젝트 ID, 위치, 서비스 계정 키가 올바르게 구성되었는지 확인합니다. 프로젝트 ID는 gkeConnect 아래의 프로젝트 ID와 동일해야 합니다.

Cloud 감사 로그가 사용 설정된 경우 로그가 수집되지 않는 가장 일반적인 이유는 권한 때문입니다. 이 시나리오에서는 Cloud 감사 로그 프록시 컨테이너에 권한 거부 오류 메시지가 표시됩니다.

Cloud 감사 로그 프록시 컨테이너는 다음 중 하나로 실행됩니다.

관리자 또는 독립형 클러스터의 정적 포드
kube-apiserver 포드의 사이드카 컨테이너

권한 오류가 표시되면 문제 해결 단계에 따라 권한 문제를 해결합니다.

또 다른 가능한 원인은, 프로젝트가 지원되는 서비스 계정 한도에 도달했기 때문일 수 있습니다. Cloud 감사 로그 서비스 계정 유출을 참조하세요.

`kube-state-metrics` 측정항목이 수집되지 않음

kube-state-metrics(KSM)는 클러스터에서 단일 복제본 배포로 실행되며 클러스터의 거의 모든 리소스에 대한 측정항목을 생성합니다. KSM 및 gke-metrics-agent가 동일한 노드에서 실행될 때는 모든 노드의 측정항목 에이전트 간에 중단 발생 위험이 더 큽니다.

KSM 측정항목 이름은 kube_pod_container_info와 같은 kube_<ResourceKind> 패턴을 따릅니다. kube_onpremusercluster_로 시작하는 측정항목은 KSM이 아닌 온프레미스 클러스터 컨트롤러에서 시작됩니다.

KSM 측정항목이 누락되었으면 다음 문제 해결 단계를 검토합니다.

Cloud Monitoring에서 kubernetes.io/anthos/container/... 같은 요약 API 측정항목을 사용하여 KSM의 CPU, 메모리, 재시작 횟수를 확인합니다 . 이는 KSM을 사용하는 별도의 파이프라인입니다. KSM 포드가 리소스 부족으로 제한되지 않는지 확인합니다.
- 이러한 요약 API 측정항목을 KSM에 사용할 수 없으면 동일 노드의 gke-metrics-agent에 동일한 문제가 있을 수 있습니다.
클러스터에서 KSM 포드와 KSM과 동일한 노드에 있는 gke-metrics-agent 포드의 상태 및 로그를 확인합니다.

`kube-state-metrics` 비정상 종료 루프

증상

Cloud Monitoring에서는 kube-state-metrics(KSM)의 측정항목을 사용할 수 없습니다.

원인

이 시나리오는 큰 클러스터 또는 리소스 양이 많은 클러스터에서 발생할 가능성이 더 높습니다. KSM은 단일 복제본 배포로 실행되며 포드, 배포, DaemonSet, ConfigMap, 보안 비밀, PersistentVolume과 같은 클러스터의 거의 모든 리소스를 나열합니다. 측정항목은 이러한 각 리소스 객체에 생성됩니다. 포드가 10,000개 넘는 클러스터와 같이 리소스에 많은 객체가 포함된 경우 KSM에 메모리 부족이 발생할 수 있습니다.

영향을 받는 버전

이 문제는 모든 버전의 Google Distributed Cloud에서 발생할 수 있습니다.

마지막 Google Distributed Cloud 버전 몇 개에서 기본 CPU 및 메모리 한도가 증가했으므로 이러한 리소스 문제 발생 빈도가 줄어들 것입니다.

해결 방법

메모리 부족 문제 때문인지 확인하려면 다음 단계를 검토하세요.

kubectl describe pod 또는 kubectl get pod -o yaml을 사용하고 오류 상태 메시지를 확인합니다.
메모리 소비와 KSM의 사용 측정항목을 확인하고 시작하기 전 한도에 도달하는지 여부를 확인합니다.

메모리 부족 문제 때문인 경우 다음 해결 방법 중 하나를 사용합니다.

KSM의 메모리 요청 및 한도를 늘립니다.

참고: 리소스 증가 후 KSM이 안정화되더라도 동일한 노드의 gke-metrics-agent는 KSM에서 대량의 측정항목을 스크래핑할 때 병목 현상을 유지할 수 있습니다.

KSM의 CPU 및 메모리를 조정하려면 다음 안내를 따르세요.
- Google Distributed Cloud 버전 1.16.0 이상에서는 Google Cloud Observability가 KSM을 관리합니다. KSM을 업데이트하려면 Stackdriver 구성요소의 기본 CPU 및 메모리 요청과 한도 재정의를 참조하세요.
- Google Distributed Cloud 버전 1.10.7 이상, 1.11.3 이상, 1.12.2 이상, 1.13 이상이지만 1.16.0 미만에서는 ConfigMap을 만들어 CPU와 메모리를 조정합니다.
  1. 다음 정의를 사용하여 kube-system 네임스페이스(1.13 이상인 경우 gke-managed-metrics-server)에 kube-state-metrics-resizer-config라는 ConfigMap을 만듭니다. 필요한 만큼 CPU 및 메모리 수를 조정합니다.
```
  apiVersion: v1
  kind: ConfigMap
  metadata:
    name: kube-state-metrics-resizer-config
    namespace: kube-system
  data:
    NannyConfiguration: |-
      apiVersion: nannyconfig/v1alpha1
      kind: NannyConfiguration
      baseCPU: 200m
      baseMemory: 1Gi
      cpuPerNode: 3m
      memoryPerNode: 20Mi
  ```
```
2. ConfigMap을 만든 후 다음 명령어를 사용해서 KSM 포드를 삭제하여 KSM 배포를 다시 시작합니다.
```
  kubectl -n kube-system rollout restart deployment kube-state-metrics
```
- Google Distributed Cloud 버전 1.9 이하, 1.10.6 이하, 1.11.2 이하, 1.12.1 이하의 경우:
  - 효과적인 장기 솔루션 없음 - KSM 관련 리소스를 편집할 경우 변경 사항이 monitoring-operator로 자동으로 되돌려집니다.
  - monitoring-operator를 0개 복제본으로 축소한 후 해당 리소스 한도를 조정하도록 KSM 배포를 수정할 수 있습니다. 하지만 monitoring-operator를 사용하여 새 패치 출시 버전으로 제공되는 취약점 패치가 클러스터에 수신되지 않습니다. 클러스터가 수정이 포함된 이후 버전으로 업그레이드된 후 monitoring-operator를 다시 확장해야 합니다.
KSM에서 측정항목 수를 줄입니다.

Google Distributed Cloud 1.13의 경우 KSM은 기본적으로 핵심 측정항목이라고 하는 소수의 측정항목만 노출합니다. 이 동작은 리소스 사용량이 이전 버전보다 적지만 같은 절차를 따라 KSM 측정항목 수를 더 줄일 수 있음을 의미합니다.

Google Distributed Cloud 1.13 이전 버전의 경우 KSM에서 기본 플래그를 사용합니다. 이 구성은 많은 수의 측정항목을 노출합니다.

`gke-metrics-agent` 비정상 종료 루프

kube-state-metrics가 있는 노드에서 gke-metrics-agent에 메모리 부족 문제만 발생하는 경우 많은 수의 kube-state-metrics 측정항목이 문제의 원인입니다. 이 문제를 완화하려면 이전 섹션에서 설명한 대로 stackdriver-operator를 축소하고 필요한 소수의 측정항목 집합을 노출하도록 KSM을 수정합니다. KSM에서 기본적으로 소수의 핵심 측정항목을 노출하는 Google Distributed Cloud 1.13으로 클러스터를 업그레이드한 후 백업 stackdriver-operator를 조정해야 합니다.

메모리 부족 이벤트와 관련이 없는 문제는 gke-metric-agent의 포드 로그를 확인합니다. resourceAttrOverride 필드를 Stackdriver 커스텀 리소스에 추가하여 모든 gke-metrics-agent 포드에 맞게 CPU와 메모리를 조정할 수 있습니다.

`stackdriver-metadata-agent` 비정상 종료 루프

증상

Cloud Monitoring에서 측정항목을 필터링할 때 사용 가능한 시스템 메타데이터 라벨이 없습니다.

원인

stackdriver-metadata-agent 비정상 종료 루프의 가장 일반적인 원인은 메모리 부족 이벤트 때문입니다. 이 이벤트는 kube-state-metrics와 비슷합니다. stackdriver-metadata-agent는 모든 리소스를 나열하지는 않지만 포드, 배포, NetworkPolicy와 같은 관련 리소스 유형의 모든 객체를 나열합니다. 에이전트가 단일 복제본 배포로 실행되어 객체 수가 너무 큰 경우 메모리 부족 이벤트 위험이 증가합니다.

영향을 받는 버전

이 문제는 모든 버전의 Google Distributed Cloud에서 발생할 수 있습니다.

마지막 Google Distributed Cloud 버전 몇 개에서 기본 CPU 및 메모리 한도가 증가했으므로 이러한 리소스 문제 발생 빈도가 줄어들 것입니다.

해결 방법

메모리 부족 문제 때문인지 확인하려면 다음 단계를 검토하세요.

kubectl describe pod 또는 kubectl get pod -o yaml을 사용하고 오류 상태 메시지를 확인합니다.
메모리 소비와 stackdriver-metadata-agent에 대한 사용 측정항목을 확인하고 시작하기 전 한도에 도달하는지 확인합니다.

메모리 부족으로 인해 문제가 발생하는 것으로 확인되면 Stackdriver 커스텀 리소스의 resourceAttrOverride 필드에서 메모리 한도를 늘립니다.

`metrics-server` 비정상 종료 루프

증상

수평형 포드 자동 확장 처리 및 kubectl top가 클러스터에서 작동하지 않습니다.

원인 및 영향을 받는 버전

이 문제는 아주 자주 발생하지는 않지만 대규모 클러스터 또는 포드 밀도가 높은 클러스터에서 메모리 부족 오류로 인해 발생합니다.

이 문제는 모든 버전의 Google Distributed Cloud에서 발생할 수 있습니다.

해결 방법

측정항목 서버 리소스 한도를 늘립니다. Google Distributed Cloud 버전 1.13 이상에서 metrics-server 네임스페이스와 해당 구성이 kube-system에서 gke-managed-metrics-server로 이동했습니다.

Cloud 감사 로그 서비스 계정 삭제 시 일부 리소스가 삭제되지 않음

Cloud 감사 로그에 사용되는 서비스 계정을 삭제해도 관련된 모든 Google Cloud리소스가 함께 삭제되는 것은 아닙니다. 이러한 Cloud 감사 로그에 사용되는 서비스 계정을 반복적으로 삭제하고 다시 생성하면, 결국 감사 로깅 기능이 오작동하거나 실패하게 될 수 있습니다.

증상

Cloud 감사 로그 프록시 컨테이너에 권한 거부 오류 메시지가 표시됩니다.

이 문제가 감사 로그 실패의 원인인지 확인하려면 다음 명령어를 실행하세요.

curl -X GET -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/features/cloudauditlogging

여기에서 PROJECT_NUMBER를 프로젝트 번호로 바꿉니다.

이 응답에는 프로젝트에서 Cloud 감사 로그에 사용된 모든 서비스 계정이 반환되며, 이미 삭제된 서비스 계정도 포함됩니다.

원인 및 영향을 받는 버전

Cloud 감사 로그에 사용된 서비스 계정을 삭제하더라도 모든 Google Cloud 리소스가 함께 삭제되는 것은 아니며, 결국에는 프로젝트의 서비스 계정 한도(1,000개)에 도달할 수 있습니다.

이 문제는 모든 버전의 Google Distributed Cloud에서 발생할 수 있습니다.

해결 방법

유지하려는 서비스 계정을 쉼표로 구분된 목록으로 만들어 환경 변수를 생성합니다. 각 서비스 계정 이메일 주소는 작은따옴표로 묶고 전체 목록은 큰따옴표로 묶습니다. 아래는 참고용으로 사용할 수 있는 예시입니다.
```
SERVICE_ACCOUNT_EMAILS="'SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com'"
```
다음을 바꿉니다.
- PROJECT_ID: 프로젝트 ID입니다.
- SERVICE_ACCOUNT_NAME: 서비스 계정 이름입니다.
완성된 목록은 다음 예시와 비슷해야 합니다.
```
"'sa_name1@example-project-12345.iam.gserviceaccount.com','sa_name2@example-project-12345.iam.gserviceaccount.com','sa_name3@example-project-12345.iam.gserviceaccount.com'"
```
다음 명령어를 실행하여 프로젝트에서 Cloud 감사 로그 기능을 삭제합니다.
```
curl -X DELETE -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/FLEET_REGION /features/cloudauditlogging
```
다음을 바꿉니다.
- PROJECT_NUMBER: 프로젝트 번호입니다.
- FLEET_REGION: 클러스터의 Fleet 멤버십 위치입니다. 이 위치는 us-central1과 같은 특정 리전일 수도 있고 global일 수도 있습니다. 현재 멤버십 위치를 확인하려면 gcloud container fleet memberships list 명령어를 실행하세요.
이 명령어를 실행하면 모든 서비스 계정이 완전히 삭제됩니다.

이후에는 유지하려는 서비스 계정만 포함하여 Cloud 감사 로그 기능을 다시 만듭니다.

curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    https://gkehub.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/FLEET_REGION/features?feature_id=cloudauditlogging \
    -d '{"spec":{"cloudauditlogging":{"allowlistedServiceAccounts":[$SERVICE_ACCOUNT_EMAILS]}}}'

다음 단계

추가 지원이 필요하면 Cloud Customer Care에 연락합니다.

다음을 비롯한 지원 리소스에 관한 자세한 내용은 지원 받기를 참조하세요.

지원 케이스를 여는 요구사항
로그 및 측정항목과 같이 문제를 해결하는 데 도움이 되는 도구
VMware용 Google Distributed Cloud(소프트웨어 전용)의 지원되는 구성요소, 버전, 기능

Google Distributed Cloud 관측 가능성 문제 해결 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

Cloud 감사 로그가 수집되지 않음

kube-state-metrics 측정항목이 수집되지 않음

kube-state-metrics 비정상 종료 루프

gke-metrics-agent 비정상 종료 루프

stackdriver-metadata-agent 비정상 종료 루프

metrics-server 비정상 종료 루프

Cloud 감사 로그 서비스 계정 삭제 시 일부 리소스가 삭제되지 않음

다음 단계

Google Distributed Cloud 관측 가능성 문제 해결

`kube-state-metrics` 측정항목이 수집되지 않음

`kube-state-metrics` 비정상 종료 루프

`gke-metrics-agent` 비정상 종료 루프

`stackdriver-metadata-agent` 비정상 종료 루프

`metrics-server` 비정상 종료 루프