Google Kubernetes Engine (GKE) 클러스터 및 워크로드의 상태를 빠르게 확인해야 할 때 어디서부터 시작해야 할지 알기 어려울 수 있습니다. Google Cloud 콘솔에서 클러스터 및 워크로드의 상태를 시각화하면 환경의 상태를 빠르게 평가할 수 있습니다. 클러스터 상태는 노드, 네트워킹과 같은 기본 GKE 인프라의 상태를 나타내고 워크로드 상태는 클러스터에서 실행되는 앱의 상태와 성능을 나타냅니다.
이 페이지를 사용하여 Kubernetes 클러스터 및 워크로드 페이지를 탐색하여 개요를 확인하고, 리소스 압박을 받는 노드나 실패한 포드와 같은 잠재적 문제를 식별하고, 특정 리소스를 자세히 드릴다운하는 방법을 알아보세요.
이 정보는 클러스터 안정성을 유지하고 신속한 상태 평가 및 리소스 확인을 실행해야 하는 플랫폼 관리자 및 운영자에게 중요합니다. 배포의 런타임 상태를 이해하고 장애를 조사해야 하는 애플리케이션 개발자에게도 필수적입니다. Google Cloud 콘텐츠에서 참조하는 일반적인 역할과 예시 태스크에 대한 자세한 내용은 일반 GKE 사용자 역할 및 태스크를 참고하세요.
앱의 상태를 완벽하게 파악할 수 있도록 Google Cloud 콘솔에서는 강력한 로깅 및 모니터링 도구에 대한 액세스 권한도 제공하므로 과거 실패의 근본 원인을 조사하고 향후 실패를 사전 예방할 수 있습니다. 이러한 도구에 대한 자세한 내용은 Cloud Logging으로 기록 분석 실행 및 Cloud Monitoring으로 사전 모니터링 실행을 참고하세요.
클러스터 문제 찾기
Kubernetes 클러스터 페이지에서는 클러스터의 상태를 개략적으로 확인할 수 있습니다. 클러스터의 문제를 식별하려면 이 페이지에서 시작하세요.
- 시작하려면 Google Cloud 콘솔에서 Kubernetes 클러스터 페이지로 이동합니다. 
다음은 이 페이지를 사용하여 문제를 해결하는 방법의 몇 가지 예입니다.
- 클러스터 상태, 업그레이드 전략, 비용 최적화 개선에 관한 조언을 보려면 추천 보기를 클릭하세요.
- 비정상 클러스터를 식별하려면 상태 열을 검토하세요. 녹색 체크표시가 없는 클러스터에는 주의가 필요합니다.
- 잠재적인 문제를 확인하려면 알림 열을 검토하세요. 자세한 내용을 보려면 알림 메시지를 클릭하세요.
특정 클러스터 조사
클러스터에 문제가 있는 것을 발견한 후 클러스터의 세부정보 페이지를 살펴보고 클러스터 문제를 해결하고 구성을 이해하는 데 도움이 되는 자세한 정보를 확인하세요.
클러스터의 세부정보 페이지로 이동하려면 다음 단계를 따르세요.
- Kubernetes 클러스터 페이지로 이동합니다. 
- 이름 열을 검토하고 조사할 클러스터의 이름을 클릭합니다. 
다음은 클러스터 세부정보 페이지를 사용하여 클러스터 문제를 해결하는 방법의 몇 가지 예입니다.
- 일반 상태 점검의 경우 다음 옵션을 시도해 보세요. - 클러스터 수준 대시보드를 보려면 모니터링 가능성 탭으로 이동합니다. 기본적으로 클러스터를 만들면 GKE에서 Cloud Monitoring을 사용 설정합니다. Cloud Monitoring이 사용 설정되면 GKE가 이 페이지에 대시보드를 자동으로 설정합니다. 문제 해결에 가장 유용할 수 있는 보기는 다음과 같습니다. - 개요: 클러스터의 상태, 리소스 사용률, 주요 이벤트의 개략적인 요약을 볼 수 있습니다. 이 대시보드를 사용하면 클러스터의 전반적인 상태를 빠르게 평가하고 잠재적인 문제를 식별할 수 있습니다.
- 트래픽 측정항목: 노드 기반 네트워킹 측정항목을 보고 Kubernetes 워크로드 간 트래픽에 대한 인사이트를 얻으세요.
- 워크로드 상태: 배포, 포드, 컨테이너의 상태를 확인합니다. 실패하거나 비정상 인스턴스를 식별하고 리소스 제약 조건을 감지합니다.
- 컨트롤 플레인: 컨트롤 플레인의 상태와 성능을 확인합니다. 이 대시보드를 사용하면 - kube-apiserver,- etcd과 같은 구성요소의 주요 측정항목을 모니터링하고, 성능 병목 현상을 식별하고, 구성요소 장애를 감지할 수 있습니다.
 
- 최근 앱 오류를 보려면 앱 오류 탭으로 이동합니다. 이 탭의 정보는 발생 횟수, 오류가 처음 표시된 시간, 마지막으로 발생한 시간을 보여주어 오류의 우선순위를 정하고 오류를 해결하는 데 도움이 됩니다. - 오류를 자세히 조사하려면 오류 메시지를 클릭하여 관련 로그 링크를 포함한 자세한 오류 보고서를 확인하세요. 
 
- 최근 업그레이드 또는 변경 후 문제를 해결하는 경우 클러스터 세부정보 탭의 클러스터 기본사항 섹션을 확인하세요. 버전 필드에 나열된 버전이 예상한 버전인지 확인합니다. 자세히 조사하려면 업그레이드 섹션에서 업그레이드 기록 표시를 클릭합니다. 
- Standard 클러스터를 사용 중이고 포드가 - Pending상태에서 멈추거나 노드가 과부하된 것으로 의심되는 경우 노드 탭을 확인합니다. GKE에서 노드를 관리하므로 Autopilot 클러스터에는 노드 탭이 제공되지 않습니다.- 노드 풀 섹션에서 자동 확장 기능이 올바르게 구성되어 있고 머신 유형이 워크로드에 적합한지 확인합니다.
- 노드 섹션에서 상태가 Ready가 아닌 노드를 찾습니다.NotReady상태는 리소스 압력이나 kubelet 문제 (kubelet은 각 노드에서 실행되어 컨테이너를 관리하는 에이전트임)와 같은 노드 자체의 문제를 나타냅니다.
 
워크로드 문제 찾기
배포 실패와 같이 특정 앱에 문제가 있다고 의심되는 경우 Google Cloud 콘솔의 워크로드 페이지로 이동합니다. 이 페이지에서는 클러스터 내에서 실행되는 모든 앱을 중앙에서 확인할 수 있습니다.
- 시작하려면 Google Cloud 콘솔에서 워크로드 페이지로 이동합니다. 
다음은 이 페이지를 사용하여 문제를 해결하는 방법의 몇 가지 예입니다.
- 비정상 워크로드를 식별하려면 상태 열을 검토합니다. 녹색 체크표시가 없는 워크로드에는 주의가 필요합니다.
- 앱이 응답하지 않으면 포드 열을 검토합니다. 예를 들어 1/3과 같은 상태는 3개의 앱 복제본 중 하나만 실행되고 있음을 의미하며 이는 문제가 있음을 나타냅니다.
특정 워크로드 조사
개요에서 문제가 있는 워크로드를 확인한 후 워크로드 세부정보 페이지를 살펴보고 근본 원인을 격리합니다.
워크로드의 세부정보 페이지로 이동하려면 다음 단계를 따르세요.
- 워크로드 페이지로 이동합니다. 
- 이름 열을 확인하고 조사할 워크로드의 이름을 클릭합니다. 
워크로드 세부정보 페이지를 사용하여 워크로드 문제를 해결하는 방법의 몇 가지 예는 다음과 같습니다.
- 워크로드의 구성을 확인하려면 워크로드 개요 및 세부정보 탭을 사용합니다. 이 정보를 사용하여 올바른 컨테이너 이미지 태그가 배포되었는지와 같은 이벤트를 확인하거나 워크로드의 리소스 요청 및 제한을 확인할 수 있습니다. 
- 비정상 종료된 특정 포드의 이름을 찾으려면 관리형 포드 섹션으로 이동합니다. - kubectl명령어에 이 정보가 필요할 수 있습니다. 이 섹션에는 워크로드에 의해 제어되는 모든 포드와 상태가 나열됩니다.
- 워크로드의 최근 변경사항 내역을 보려면 업데이트 기록 탭으로 이동하세요. 새 배포 후 성능 문제가 발생하면 이 섹션을 사용하여 활성 수정 버전을 식별하세요. 그런 다음 현재 버전의 구성을 이전 버전과 비교하여 문제의 원인을 파악할 수 있습니다. 이 탭이 표시되지 않으면 워크로드가 버전을 사용하지 않는 유형이거나 아직 업데이트가 없다는 의미입니다. 
- 배포가 실패한 것 같으면 이벤트 탭으로 이동합니다. 이 페이지는 Kubernetes 수준 이벤트를 표시하므로 가장 유용한 정보 소스인 경우가 많습니다. 
- 앱의 로그를 보려면 로그 탭을 클릭합니다. 이 페이지에서는 클러스터 내부에서 어떤 일이 일어나고 있는지 파악할 수 있습니다. 여기에서 문제를 진단하는 데 도움이 되는 오류 메시지와 스택 트레이스를 확인하세요. 
- 배포된 항목을 정확하게 확인하려면 YAML 탭을 확인하세요. 이 페이지에는 클러스터에 있는 워크로드의 라이브 YAML 매니페스트가 표시됩니다. 이 정보는 소스 제어 매니페스트의 불일치를 찾는 데 유용합니다. 단일 포드의 YAML 매니페스트를 보는 경우 이 탭에는 포드의 상태도 표시되므로 포드 수준 실패에 관한 유용한 정보를 확인할 수 있습니다. 
다음 단계
- kubectl로 클러스터 상태 조사하기(이 시리즈의 다음 페이지)를 읽어보세요.
- 문제 해결 시나리오 예에서 이러한 개념이 적용된 것을 확인하세요. 
- 특정 문제 해결에 관한 조언은 GKE 문제 해결 가이드를 참고하세요. 
- 문서에서 문제 해결 방법을 찾을 수 없으면 지원 받기를 참조하여 다음 주제에 대한 조언을 포함한 추가 도움을 요청하세요. - Cloud Customer Care에 문의하여 지원 케이스를 엽니다.
- StackOverflow에서 질문하고 google-kubernetes-engine태그를 사용하여 유사한 문제를 검색해 커뮤니티의 지원을 받습니다.#kubernetes-engineSlack 채널에 가입하여 더 많은 커뮤니티 지원을 받을 수도 있습니다.
- 공개 Issue Tracker를 사용하여 버그나 기능 요청을 엽니다.