어플라이언스 액세스 문제 해결

이 페이지에서는 부트스트랩 후 어플라이언스에 액세스할 수 없는 문제를 해결하는 방법을 설명합니다. 다음 문제가 발생할 수 있습니다.

  • kubectl을 사용하여 쿼리하려고 할 때 Unable to connect to the server: dial tcp 198.18.0.64:443: i/o timeout와 같은 오류 메시지가 표시됩니다.
  • UI에 액세스하려고 할 때 Webpage not available 오류가 발생합니다.
  • 어플라이언스에 배포된 애플리케이션이 작동하지 않거나 새 애플리케이션을 배포할 수 없습니다.

UI에 액세스할 수 없는 문제 해결

UI 액세스 불가 문제를 디버그하는 흐름도

  1. UI 액세스 불가 런북에 따라 문제를 해결합니다.
  2. 클러스터 연결 가능 여부 섹션에 따라 클러스터에 연결할 수 있는지 확인합니다.
  3. 클러스터가 응답하는 경우 관리 API 액세스 가능 섹션에 따라 관리 API에 액세스할 수 있는지 확인합니다.
  4. 클러스터에 연결할 수 없고 Connection timed out 또는 i/o timeout error와 같은 오류가 반환되면 문제 해결 가이드에서 추가 문제 해결 단계를 참고하세요.

기본적인 문제해결 단계

기기의 LED 위치

  1. 이미지의 화살표로 표시된 대로 두 전원 공급 장치 중 하나의 표시등 (녹색)이 켜져 있는지 확인하여 섀시의 전원 공급 장치를 확인합니다.

    LED 표시등 상태 설명
    녹색 표시등 점등 시스템 켜짐 및 정상 작동
    녹색으로 깜박임 대기 전력 있음 (전원 공급 장치 꺼짐)
    주황색이 계속 켜져 있음 전원 공급 장치 장애 (과전압/부족 전압, 과열, 과전류, 단락), 팬 장애 또는 입력 과전압 보호
    황색 깜박임 전원 공급 장치 오류
    사용 안함 전원이 공급되지 않거나 대기 전원이 실패함 (과전압/ 저전압, 과열, 과전류, 단락, 팬 잠김)
  2. 표시등이 꺼져 있으면 먼저 전원 코드가 전원을 공급받고 있는지 확인합니다. 전원 코드가 제대로 작동하는 경우 전원 공급 장치가 고장난 것일 수 있으므로 교체해야 합니다. 교체 안내는 전원 공급 장치 교체 가이드를 참고하세요.

  3. 전원 공급 장치가 작동하지만 기기가 여전히 작동하지 않으면 느슨하거나 손상된 연결이 있는지 확인합니다.

  4. 스위치와 서버의 LED가 이미지의 화살표로 표시된 대로 켜져 있는지 확인합니다.

  5. 스위치의 링크 LED가 녹색으로 계속 켜져 있으면 스위치 작동 확인 섹션에 따라 작동하는지 확인합니다.

  6. 스위치 상태와 구성이 올바르면 iLO 로그인 단계에 설명된 단계에 따라 iLO에 로그인하여 기기 상태를 확인합니다.

    1. 팬 중 하나가 심각한 경우 HPE 지원팀에 문의하여 심각한 팬을 교체하고 팬 교체 가이드에 따라 교체합니다.
    2. 블레이드가 꺼져 있으면 블레이드 섹션으로 이동하여 블레이드를 선택하고 전원 버튼을 눌러 켭니다.
    3. 블레이드 중 하나가 심각한 상태인 경우 블레이드 섹션으로 이동하여 심각한 블레이드를 선택하고 전원 섹션으로 이동하여 시스템 강제 재설정을 시작합니다.
    4. 섀시 상태가 심각한 경우 전원 및 열 탭으로 이동하여 섀시를 재설정해 볼 수도 있습니다. 관리 전원 섹션을 선택하고 EL8000CM 버튼 재설정을 클릭합니다. 이 프로세스는 섀시 관리자 펌웨어를 재설정하며 몇 분 정도 걸릴 수 있습니다. 이 시간 동안 섀시를 사용할 수 없습니다.
    5. 문제가 계속되면 정보 탭으로 이동하여 로그를 선택하고 드롭다운 메뉴에서 상태 로그를 선택한 후 CSV 파일로 다운로드합니다. Google에 티켓을 제출하고 로그를 첨부하여 하드웨어 교체를 요청합니다.

    건강 로그

  7. 블레이드의 전원 LED가 켜져 있으면 어플라이언스에 연결된 머신에서 다음 블레이드 IP 주소로 핑 테스트를 실행합니다.

        ping 198.18.0.7  //BM01
        ping 198.18.0.8  //BM02
        ping 198.18.0.9  //BM03
    

    핑 테스트가 성공하면 노드가 작동 중임을 나타냅니다.

  8. 모든 노드가 핑 테스트에 실패하면 Google 지원팀으로 에스컬레이션합니다.

  9. 이 섹션에 설명된 모든 단계를 따른 후에도 문제가 지속되면 추가 지원을 위해 Google 지원팀으로 문제를 에스컬레이션하세요.

연결이 느슨하거나 손상됨

  1. 모든 연결이 안전하고 제대로 연결되어 있는지 확인합니다. 어플라이언스 내 케이블 연결을 확인하고 보호하는 방법에 관한 안내는 케이블 확인을 참고하세요.

  2. 케이블에 눈에 띄는 손상이 있는지 검사합니다. 케이블이 손상된 경우 교체합니다.

스위치가 작동하는지 확인

  1. 스위치의 직렬 콘솔에 로그인합니다. 로그인이 성공하면 다음 명령어를 실행하여 스위치의 상태를 확인합니다. 이 명령어는 스위치의 업타임과 리소스 소비를 표시합니다.

    show version
    
  2. 직렬 콘솔이 응답하는 경우 BGP 요약 확인을 참고하여 스위치의 BGP 구성을 확인합니다.

  3. 링크 LED가 꺼져 있거나 직렬 콘솔이 응답하지 않으면 스위치가 고장난 것일 수 있습니다. 교체를 위해 Google 지원팀에 문제를 에스컬레이션합니다.

클러스터 연결 가능 여부 확인

  1. IO 사용자 인증 정보로 gdcloud 세션에 로그인합니다.

    gdcloud auth login
    
  2. 로그인할 수 없는 경우 어플라이언스 설정 중에 백업된 비상 사용자 인증 정보를 찾아 root-admin-kubeconfig 명령어와 함께 사용합니다.

  3. 클러스터에 연결할 수 있는지 확인합니다.

    kubectl --kubeconfig root-admin-kubeconfig get servers -A
    

Management API 접근성 확인

  1. IO 사용자 인증 정보로 gdcloud 세션에 로그인합니다.

    gdcloud auth login
    

    로그인에 실패하면 관리 영역 사용자 인증 정보로 로그인합니다.

  2. AIS 데이터베이스가 오작동하거나 잘못 구성되어 로그인에 실패할 수 있습니다. IAM-R0009 - AIS 데이터베이스를 참고하세요.

  3. 로그인 문제를 해결할 수 없는 경우 어플라이언스 설정 중에 백업된 비상 사용자 인증 정보를 찾아 root-admin-kubeconfig 명령어와 함께 사용하세요.

  4. 관리 평면 kubeconfig를 가져옵니다.

    kubectl --kubeconfig root-admin-kubeconfig -n management-kube-system get secret kube-admin-remote-kubeconfig -ojsonpath='{.data.value}' | base64 -d > kube-admin-remote-kubeconfig
    
  5. 클러스터의 상태를 가져옵니다.

    kubectl --kubeconfig kube-admin-remote-kubeconfig get --raw='/readyz?verbose'