GKE 문제 해결

이 문서에는 Google Kubernetes Engine(GKE)을 사용할 때 발생할 수 있는 일반적인 문제에 대한 문제 해결 문서가 정리되어 있습니다. ImagePullBackOffCrashLoopBackOff와 같은 워크로드 오류 진단, 클러스터 자동 확장 동작 디버깅, PersistentVolume 문제 해결, 노드 등록 문제 해결 등 다양한 상황에서 여기 나열된 문서들이 도움을 줄 수 있습니다.

GKE 문제 해결이 처음이라면 문제 해결 소개부터 시작하세요.

발생한 문제를 진단하고 해결하려면 다음 섹션에 있는 문서를 참고하세요.

GKE 네트워킹 문제를 해결하려면 GKE 네트워킹 문서의 GKE 네트워킹 문제 해결을 참조하세요.

이 문서는 GKE 구성 문제를 해결하는 관리자 및 설계자, 보안 전문가, 네트워킹 전문가 또는 스토리지 전문가를 대상으로 합니다. GKE 역할을 자세히 알아보려면 일반 GKE Enterprise 사용자 역할 및 태스크를 참조하세요.

문제 해결 소개

주제 설명
GKE 문제 해결 소개 전체적인 절차와 기본 개념을 학습하여 GKE 문제 해결을 시작합니다.
서비스 상태 및 사고 검토 플랫폼 문제를 배제하기 위해 GKE 및 관련 Google Cloud 서비스의 상태를 확인하는 방법을 알아봅니다.
Google Cloud 콘솔에서 클러스터 및 워크로드 상태 평가 Google Cloud 콘솔을 사용하여 GKE 문제를 조사하고 해결하는 방법을 알아봅니다.
kubectl로 클러스터 상태 조사하기 클러스터와 워크로드의 문제를 진단하는 데 사용하는 일반적인 kubectl 명령어와 기법을 알아봅니다.
Cloud Logging으로 과거 데이터 분석 수행 GKE에서 문제의 근본 원인을 찾기 위해 Cloud Logging을 효과적으로 사용하는 방법을 이해합니다.
Cloud Monitoring으로 사전 모니터링 수행 Cloud Monitoring 대시보드와 측정항목을 활용하여 GKE 문제를 식별, 진단, 해결합니다.
Gemini Cloud Assist로 진단 속도 높이기 Gemini가 GKE 문제의 진단과 해결을 어떻게 도와주는지 알아봅니다.
정리: 문제 해결 시나리오 예시 GKE에서 자주 발생하는 시나리오를 단계별 문제 해결 예제로 따라가 봅니다.

클러스터 설정

주제 설명
클러스터 만들기 클러스터 생성 문제를 해결합니다.
Autopilot 클러스터 클러스터 생성, 네임스페이스 삭제, 확장, 워크로드 문제를 포함한 GKE Autopilot 클러스터를 진단하고 문제를 해결합니다.
kubectl 명령줄 도구 인증, 승인 문제를 포함한 GKE의 kubectl 명령줄 도구 문제를 해결합니다. 이 페이지에는 kubectl logs, attach, exec 또는 port-forward 명령어로 인해 응답이 중지하는지 확인하기 위해 Konnectivity 프록시 문제를 해결하는 방법에 대한 조언도 포함되어 있습니다.
Standard 노드 풀 노드 풀 생성, 최적의 프로비저닝, 손상된 인스턴스 메타데이터, 새 노드 풀로 워크로드 마이그레이션을 포함한 GKE Standard 노드 풀 관련 문제를 해결합니다.
노드 NotReady 상태 리소스 부족, 네트워크 문제, 구성요소 장애와 같은 일반적인 원인을 문제 해결하여 GKE에서 노드가 NotReady 상태가 되는 문제를 진단하고 해결하는 방법을 알아봅니다.
노드 등록 노드 등록 실패, 성공적인 노드 등록을 위한 필수 요건 누락과 같은 GKE Standard 클러스터에 노드를 추가할 때 발생하는 문제를 해결합니다.
컨테이너 런타임 containerddockershim, 비공개 레지스트리 관련 문제를 포함한 GKE의 컨테이너 런타임 문제를 해결합니다.

자동 확장

주제 설명
클러스터 자동 확장 처리 기능이 축소되지 않음 클러스터가 사용률이 낮은 노드를 삭제하지 않는 일반적인 원인을 진단하고 해결합니다. 제한적인 PodDisruptionBudgets, 로컬 스토리지를 사용하는 포드 또는 노드 축출을 막는 특정 주석(예: "cluster-autoscaler.kubernetes.io/safe-to-evict": "false")과 같은 문제를 확인하는 방법을 설명합니다.
클러스터 자동 확장 처리 기능이 확장되지 않음 클러스터 자동 확장 처리 기능이 수요를 충족하기 위해 새 노드를 추가하지 않는 이유를 알아보세요. 예약할 수 없는 포드가 있는지 확인하고, 클러스터 또는 노드 풀의 크기 제한에 도달하지 않았는지 검증하며, 리소스 할당량 문제나 리전별 VM 가용성 문제 가능성을 파악합니다.
수평형 포드 자동 확장 수평형 포드 자동 확장 처리가 애플리케이션의 포드 복제본을 확장하지 않는 문제를 해결합니다. 잘못 구성된 HorizontalPodAutoscaler 객체 또는 측정항목 파이프라인 문제와 같은 일반적인 원인을 해결하는 방법을 설명합니다.

스토리지

주제 설명
스토리지 리전 영구 디스크, 디스크 성능, 볼륨 확장 관련 문제를 포함한 스토리지 문제를 해결합니다.

클러스터 보안

주제 설명
인증 RBAC, GKE용 워크로드 아이덴티티 제휴, GKE 메타데이터 서버 관련 문제를 포함한 GKE의 인증 문제를 해결합니다.
서비스 계정 기본 서비스 계정 복원 및 Compute Engine 기본 서비스 계정 사용 설정을 포함한 서비스 계정 문제를 해결합니다.
애플리케이션 레이어 보안 비밀 업데이트 실패, Cloud KMS 키를 사용할 수 없는 경우 또는 Cloud KMS 키 버전이 폐기된 경우 오류를 포함한 애플리케이션 계층 보안 비밀 암호화를 구성할 때 발생할 수 있는 문제를 해결합니다.

클러스터의 루트 인증 기관이 곧 만료됨

주제 설명
루트 인증 기관(CA) 만료 클러스터의 루트 인증 기관(CA)이 곧 만료되는 경우 일반적인 클러스터 작업이 중단되지 않도록 사용자 인증 정보 순환을 수행하는 방법을 알아봅니다.

워크로드

주제 설명
배포된 워크로드 PodUnschedulable을 포함하여 GKE 클러스터에서 실행되는 워크로드의 오류를 해결합니다. MatchNodeSelectorDoes not have minimum availability와 같은 오류에 대한 조언은 PodUnschedulable 섹션을 참조하세요.
이미지 가져오기 이미지 가져오기 문제를 해결합니다. ImagePullBackOffErrImagePull과 같은 상태가 발생하는 원인과 인증 및 네트워크 연결과 같은 일반적인 문제를 해결하여 이러한 상태를 해결하는 방법을 알아봅니다.
CrashLoopBackOff 이벤트 GKE에서 CrashLoopBackOff 이벤트 문제를 해결합니다. 리소스 소진, 앱 구성 오류, 활성 프로브 실패와 같은 문제를 진단합니다.
OOM 이벤트 Kubernetes 메모리 부족(OOM) 이벤트 문제를 해결합니다. 원인을 파악하고 이벤트 유형을 구분하며 컨테이너 및 노드 수준 OOM 종료 모두에 효과적인 솔루션을 적용합니다.
Arm 워크로드 Arm 노드에서 포드 비정상 종료를 포함한 Arm 워크로드 관련 문제를 해결합니다.
TPU 할당량, 노드 자동 프로비저닝, 워크로드 구성, 예약과 관련된 문제를 포함한 TPU 문제를 해결합니다.
GPU GPU 드라이버 설치, 기기 플러그인 오류, 컨테이너 이미지와 관련된 문제를 포함한 GPU 문제를 해결합니다.

클러스터 관리

주제 설명
클러스터 업그레이드 장시간이 걸리거나 완료되지 않는 업그레이드, 예기치 않은 자동 업그레이드, 실패, 업그레이드 이후 발생하는 문제 등 GKE 클러스터 및 노드 업그레이드 관련 문제를 해결하는 방법을 알아봅니다.
웹훅 허용 웹훅을 사용할 때 클러스터 컨트롤 플레인의 안정성을 보장하고 문제를 해결하는 방법을 알아봅니다.
네임스페이스가 Terminating 상태로 정지함 삭제를 차단하는 비정상 구성요소를 식별하고 삭제하여 Terminating 상태로 멈춘 네임스페이스 관련 문제를 해결합니다.
동시 작업 작업이 완료될 때까지 기다려 이러한 오류를 식별하고 해결하는 방법을 알아 동시 작업을 문제 해결합니다.

모니터링

주제 설명
시스템 측정항목 시스템 측정항목이 Cloud Monitoring에 표시되지 않는 문제를 해결합니다.
모니터링 대시보드 모니터링 사용 설정, 누락된 Kubernetes 리소스, 권한 관련 문제를 포함한 모니터링 대시보드 문제를 해결합니다.
로깅 로깅 사용 설정, 로그 누락, 할당량 관련 문제를 포함한 로깅 문제를 해결합니다.

4xx 오류

주제 설명
4xx 오류 GKE를 사용할 때 발생할 수 있는 400, 401, 403, 404 오류를 해결합니다. 이 페이지에는 계정에서 수정 권한 누락 오류를 해결하는 방법에 대한 정보도 포함되어 있습니다.

알려진 문제

주제 설명
알려진 문제 GKE 사용에 영향을 미칠 수 있는 알려진 문제를 식별하고 해결합니다.

다음 단계

  • 문서에서 문제 해결 방법을 찾을 수 없으면 지원 받기를 참조하여 다음 주제에 대한 조언을 포함한 추가 도움을 요청하세요.