Google Cloud 콘솔에서 클러스터 및 워크로드 상태 평가


Google Kubernetes Engine (GKE) 클러스터 및 워크로드의 상태를 빠르게 확인해야 할 때 어디서부터 시작해야 할지 알기 어려울 수 있습니다. Google Cloud 콘솔에서 클러스터 및 워크로드의 상태를 시각화하면 환경의 상태를 빠르게 평가할 수 있습니다. 클러스터 상태는 노드, 네트워킹과 같은 기본 GKE 인프라의 상태를 나타내고 워크로드 상태는 클러스터에서 실행되는 앱의 상태와 성능을 나타냅니다.

이 페이지를 사용하여 Kubernetes 클러스터 및 워크로드 페이지를 탐색하여 개요를 확인하고, 리소스 압박을 받는 노드나 실패한 포드와 같은 잠재적 문제를 식별하고, 특정 리소스를 자세히 드릴다운하는 방법을 알아보세요.

이 정보는 클러스터 안정성을 유지하고 신속한 상태 평가 및 리소스 확인을 수행해야 하는 플랫폼 관리자와 운영자에게 중요합니다. 배포의 런타임 상태를 이해하고 장애를 조사해야 하는 애플리케이션 개발자에게도 필수적입니다. Google Cloud 콘텐츠에서 참조하는 일반적인 역할과 예시 태스크에 대한 자세한 내용은 일반 GKE 사용자 역할 및 태스크를 참고하세요.

앱의 상태를 완벽하게 파악할 수 있도록 Google Cloud 콘솔에서는 강력한 로깅 및 모니터링 도구에 대한 액세스 권한도 제공하므로 과거 실패의 근본 원인을 조사하고 향후 실패를 사전 예방할 수 있습니다. 이러한 도구에 대한 자세한 내용은 Cloud Logging으로 기록 분석 실행Cloud Monitoring으로 사전 모니터링 실행을 참고하세요.

클러스터 문제 찾기

Kubernetes 클러스터 페이지에서는 클러스터의 상태를 개략적으로 확인할 수 있습니다. 클러스터의 문제를 식별하려면 이 페이지에서 시작하세요.

다음은 이 페이지를 사용하여 문제를 해결하는 방법의 몇 가지 예입니다.

  • 클러스터 상태, 업그레이드 전략, 비용 최적화 개선에 관한 조언을 보려면 추천 보기를 클릭하세요.
  • 비정상 클러스터를 식별하려면 상태 열을 검토하세요. 녹색 체크표시가 없는 클러스터에는 주의가 필요합니다.
  • 잠재적인 문제를 확인하려면 알림 열을 검토하세요. 자세한 내용을 보려면 알림 메시지를 클릭하세요.

특정 클러스터 조사

클러스터에 문제가 있는 것을 발견한 후 클러스터의 세부정보 페이지를 살펴보고 클러스터 문제를 해결하고 구성을 이해하는 데 도움이 되는 자세한 정보를 확인하세요.

클러스터의 세부정보 페이지로 이동하려면 다음 단계를 따르세요.

  1. Kubernetes 클러스터 페이지로 이동합니다.

    Kubernetes 클러스터로 이동

  2. 이름 열을 검토하고 조사할 클러스터의 이름을 클릭합니다.

다음은 클러스터 세부정보 페이지를 사용하여 클러스터 문제를 해결하는 방법의 몇 가지 예입니다.

  • 일반 상태 점검의 경우 다음 옵션을 시도해 보세요.

    • 클러스터 수준 대시보드를 보려면 모니터링 가능성 탭으로 이동합니다. 기본적으로 GKE는 클러스터를 만들 때 Cloud Monitoring을 사용 설정합니다. Cloud Monitoring이 사용 설정되면 GKE가 이 페이지에 대시보드를 자동으로 설정합니다. 문제 해결에 가장 유용할 수 있는 보기는 다음과 같습니다.

      • 개요: 클러스터의 상태, 리소스 사용률, 주요 이벤트의 개략적인 요약을 볼 수 있습니다. 이 대시보드를 사용하면 클러스터의 전반적인 상태를 빠르게 평가하고 잠재적인 문제를 식별할 수 있습니다.
      • 트래픽 측정항목: 노드 기반 네트워킹 측정항목을 보고 Kubernetes 워크로드 간 트래픽에 대한 인사이트를 얻으세요.
      • 워크로드 상태: 배포, 포드, 컨테이너의 상태를 확인합니다. 실패하거나 비정상 인스턴스를 식별하고 리소스 제약 조건을 감지합니다.
      • 컨트롤 플레인: 컨트롤 플레인의 상태와 성능을 확인합니다. 이 대시보드를 사용하면 kube-apiserver, etcd과 같은 구성요소의 주요 측정항목을 모니터링하고, 성능 병목 현상을 식별하고, 구성요소 장애를 감지할 수 있습니다.

    • 최근 앱 오류를 보려면 앱 오류 탭으로 이동합니다. 이 탭의 정보는 발생 횟수, 오류가 처음 표시된 시간, 마지막으로 발생한 시간을 보여주어 오류의 우선순위를 정하고 오류를 해결하는 데 도움이 됩니다.

      오류를 자세히 조사하려면 오류 메시지를 클릭하여 관련 로그 링크를 포함한 자세한 오류 보고서를 확인하세요.

  • 최근 업그레이드 또는 변경 후 문제를 해결하는 경우 클러스터 세부정보 탭의 클러스터 기본사항 섹션을 확인하세요. 버전 필드에 나열된 버전이 예상한 버전인지 확인합니다. 자세히 조사하려면 업그레이드 섹션에서 업그레이드 기록 표시를 클릭합니다.

  • Standard 클러스터를 사용 중이고 포드가 Pending 상태에서 멈추거나 노드가 과부하된 것으로 의심되는 경우 노드 탭을 확인합니다. GKE에서 노드를 관리하므로 Autopilot 클러스터에는 노드 탭이 제공되지 않습니다.

    • 노드 풀 섹션에서 자동 확장 기능이 올바르게 구성되어 있고 머신 유형이 워크로드에 적합한지 확인합니다.
    • 노드 섹션에서 상태가 Ready가 아닌 노드를 찾습니다. NotReady 상태는 리소스 압력이나 kubelet 문제 (kubelet은 각 노드에서 실행되어 컨테이너를 관리하는 에이전트임)와 같은 노드 자체의 문제를 나타냅니다.

워크로드 문제 찾기

배포 실패와 같은 특정 앱에 문제가 있다고 의심되는 경우 Google Cloud 콘솔의 워크로드 페이지로 이동합니다. 이 페이지에서는 클러스터 내에서 실행되는 모든 앱을 중앙에서 확인할 수 있습니다.

다음은 이 페이지를 사용하여 문제를 해결하는 방법의 몇 가지 예입니다.

  • 비정상 워크로드를 식별하려면 상태 열을 검토합니다. 녹색 체크표시가 없는 워크로드에는 주의가 필요합니다.
  • 앱이 응답하지 않으면 포드 열을 검토합니다. 예를 들어 1/3과 같은 상태는 3개의 앱 복제본 중 하나만 실행되고 있음을 의미하며 이는 문제가 있음을 나타냅니다.

특정 워크로드 조사

개요에서 문제가 있는 워크로드를 확인한 후 워크로드 세부정보 페이지를 살펴보고 근본 원인을 격리합니다.

워크로드의 세부정보 페이지로 이동하려면 다음 단계를 따르세요.

  1. 워크로드 페이지로 이동합니다.

    워크로드로 이동

  2. 이름 열을 확인하고 조사할 워크로드의 이름을 클릭합니다.

워크로드 세부정보 페이지를 사용하여 워크로드 문제를 해결하는 방법의 몇 가지 예는 다음과 같습니다.

  • 워크로드의 구성을 확인하려면 워크로드 개요세부정보 탭을 사용합니다. 이 정보를 사용하여 올바른 컨테이너 이미지 태그가 배포되었는지와 같은 이벤트를 확인하거나 워크로드의 리소스 요청 및 제한을 확인할 수 있습니다.

  • 비정상 종료되는 특정 포드의 이름을 찾으려면 관리형 포드 섹션으로 이동합니다. kubectl 명령어에 이 정보가 필요할 수 있습니다. 이 섹션에는 워크로드에 의해 제어되는 모든 포드와 상태가 나열됩니다.

  • 워크로드의 최근 변경사항 내역을 보려면 업데이트 기록 탭으로 이동하세요. 새 배포 후 성능 문제가 발생하면 이 섹션을 사용하여 활성 수정 버전을 식별하세요. 그런 다음 현재 버전의 구성을 이전 버전과 비교하여 문제의 원인을 파악할 수 있습니다. 이 탭이 표시되지 않으면 워크로드가 버전을 사용하지 않는 유형이거나 아직 업데이트가 없다는 의미입니다.

  • 배포가 실패한 것 같으면 이벤트 탭으로 이동합니다. 이 페이지는 Kubernetes 수준 이벤트를 표시하므로 가장 유용한 정보 소스인 경우가 많습니다.

  • 앱의 로그를 보려면 로그 탭을 클릭합니다. 이 페이지에서는 클러스터 내부에서 어떤 일이 일어나고 있는지 파악할 수 있습니다. 여기에서 문제를 진단하는 데 도움이 되는 오류 메시지와 스택 트레이스를 확인하세요.

  • 배포된 항목을 정확하게 확인하려면 YAML 탭을 확인하세요. 이 페이지에는 클러스터에 있는 워크로드의 라이브 YAML 매니페스트가 표시됩니다. 이 정보는 소스 제어 매니페스트의 불일치를 찾는 데 유용합니다. 단일 포드의 YAML 매니페스트를 보는 경우 이 탭에는 포드의 상태도 표시되므로 포드 수준 실패에 관한 유용한 정보를 확인할 수 있습니다.

다음 단계