18. 하드웨어 후 확인

예상 소요 시간: 2시간

작동 가능 구성요소 소유자: OELCM

기술 프로필: 배포 엔지니어

18.1. 구성 확인

프로덕션 준비가 되었는지 확인하기 위해 HPE에서 제공하는 Google Distributed Cloud (GDC) 에어갭 하드웨어 및 소프트웨어 애셋의 품질, 안전성, 효능을 확인하려면 Distributed Cloud 배포의 검증 CLI를 사용하세요.

유효성 검사 모음은 기기의 상태, 설치, 구성을 테스트하며 서버, 네트워크 스위치, 파일/ 블록 스토리지, 객체 스토리지, 방화벽, HSM을 검증하는 테스트를 포함합니다.

하드웨어를 검증하려면 다음 단계를 완료하세요.

  1. 부트스트래퍼 머신에서 루트 액세스 sudo로 유효성 검사 CLI 명령어를 실행합니다.

    sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheck
    

    이 명령어는 ARTIFACTS_DIR에 모든 로그를 기록합니다.

  2. 오류가 발견되면 오류 메시지에 따라 모든 문제를 해결합니다. 유효성 검사를 다시 실행합니다.

  3. 모든 보고서가 정상인 경우 다음 단계로 진행합니다.

18.2. 잠재적 문제

이 섹션에는 Distributed Cloud 인스턴스의 설치 후 유효성 검사를 실행할 때 발생할 수 있는 문제가 포함되어 있습니다.

18.2.1. 모든 Google Distributed Cloud 버전에서 발생할 수 있는 문제

18.2.1.1. 네트워크 확인에서 패치 패널에 연결된 스토리지 어플라이언스에 잘못된 플래그가 지정됨

문제:

다음 요약 텍스트와 함께 확인이 실패합니다. Storage network connection mismatched

세부정보 텍스트는 다음과 같습니다.

Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

주요 증상은 r04Ap01BO-ft와 같은 패치 패널 라벨이 포함된 확인의 두 번째 부분입니다.

해결 방법:

assets/inv/inv-core.yaml 파일에 있는 셀 CR에서 수동으로 확인합니다.

잘못된 경우의 예시 사용: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

  • 이름이 지정된 스토리지 기기 및 패치 패널이 있는 항목이 있는지 확인합니다.

예를 들어 xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft는 다음과 같이 됩니다.

        - cableType: MMF
          color: Aqua
          endA: xx-ab-stge01-01:e0g
          endATransceiverMPN: X65404-N-C
          endB: xx-ab-ppl01:r04Ap01BO-ft
          length: 2m
          mpn: 'OM4LCDX #40220 (2m)'
  • 매핑 패치 패널이 이름이 지정된 torswitch에 연결되어 있는지 확인합니다.

r04Ap01BO-ft를 가져와 r과 숫자가 있는 첫 번째 부분을 가져오고 -ft를 -bk로 변경하여 패치 패널의 다른 쪽을 찾을 수 있습니다. r04Ap01BO-ftr04Ap02BO-ftr04Ap01BO-bk에 매핑됩니다.

        - cableType: MMF
          color: Magenta
          endA: xx-ab-torsw02:Eth1/1
          endATransceiverMPN: QSFP-100G-SL4
          endB: xx-ab-ppl01:r04Ap01BO-bk
          length: 1.5m
          mpn: '12FMTPOM4 #73704 (1.5m)'
          notes: 25Gb breakout

케이블 입구의 다른 쪽 끝은 확인의 첫 번째 부분과 일치해야 합니다. 이 경우 다음과 같습니다.

이더넷 1/1/1은 실제 포트 1의 torsw02가 브레이크아웃 카세트를 사용하여 첫 번째 브레이크아웃에 연결되어 있음을 의미합니다.

매핑이 올바른 것 같으면 이 확인을 무시해도 됩니다.

18.2.1.2. 객체 스토리지 사이트의 조정 오류 (DNS 접미사 오류)

문제:

ObjectStorageSite 커스텀 리소스가 Ready: false로 설정되고 로그에 Reconcile error, retrying: failed to parse location, found malformed DNSSuffix가 보고됩니다.

해결 방법:

오류를 무시합니다. 설치 프로세스의 '루트 관리자 클러스터 부트스트랩' 단계가 끝나면 사라집니다.

18.2.1.3. 루트 관리자 클러스터의 베어메탈 머신 설정이 잘못됨

검증 출력의 실패 예:

- passed: false
  description: |-
    BMM setting validation on server xx-yy-bm01 failed with error:
    server has unexpected settings:
    /redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
  target: xx-yy-bm01
  targettype: ServerSettings
  vendorerrorcode: SERVER_TEST_FAIL(0x04)
  gpcerrorcode: FailedInBMMSetting
  mitigation: Refer to the artifact to see which server flags. Check the connection
    to the server iLO port. Check the account of iLO. Check if the iLO and server
    are fully powered up. Check the concerned settings of server ah-ab-bm01.

18.2.1.4. 패치 패널 불일치

문제:

하드웨어 확인은 직접 연결된 기기 (xx-xx-ppl)가 아닌 연결 끝에 있는 기기를 타겟팅해야 합니다.

:

- description: This check validates the storage network connection against the cell
    configuration.
  target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
  targettype: ""
  checkresult:
    passed: false
    summary: Storage network connection mismatched.
    detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
      want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
    vendorerrorcode: ""
    errorcode: VAL-E3026
    mitigation: If this check fails, it can indicate that the Storage system is not
      configurated according to the configuration file. Adjust the cabling so it matches
      with the cell configuration.

해결 방법:

오류를 무시합니다.

18.2.1.5. 핑 테스트 실패

문제:

이는 스위치에서 CAM 테이블을 채우고 기기에 도달할 수 있도록 ARP 플러딩이 발생해야 하므로 CDP 생리적 동작입니다. 처음 1~5개 패킷은 삭제될 가능성이 높습니다.

:

- description: This check validates the link quality from the management switches
    to other switches and baremetal node by measuring the packet delivery ratio of
    100 ping requests.
  target: xx-yy-mgmtsw01
  targettype: ManagementSwitch
  checkresult:
    passed: false
    summary: Link quality from ManagementSwitch to other devices is degraded.
    detail: |-
      Check the cable connections of management switch xx-yy-mgmtsw01.
      Error:
      ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1003
    mitigation: If this check failed, it usually means the network cables from the
      management switch need to be inspected or replaced. Check the artifacts directory
      or stdout to see which cable flagged.

해결 방법:

오류를 무시합니다.

18.2.1.6. ONTAP 스토리지 클러스터 이름 확인

문제:

자동화는 ONTAP 기기 호스트 이름을 찾고 있지만 ONTAP 기기는 스위치에 일련번호로 표시됩니다.

:

- description: This check validates the storage cluster name and management interface
    are consistent between netapp ontap client and the cell configuration.
  target: yy-stge-clus-01
  targettype: StorageCluster
  checkresult:
    passed: false
    summary: StorageCluster management interface cannot be found.
    detail: StorageCluster management interface x.x.x.x in the cell configuration
      cannot be found in the netapp ontap client.
    vendorerrorcode: STORAGE_TEST_FAIL(0x03)
    errorcode: VAL-E3007
    mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
      configuration is correct.

해결 방법:

오류를 무시합니다.

18.2.1.7. 부트스트래퍼 LLDP 검색 실패

문제:

show lldp neighbors에서 TOR 스위치의 부트스트래퍼를 찾을 수 없습니다. 부트스트래퍼 (Ubuntu)의 OS가 LLDP 요청에 응답하지 않기 때문인 것으로 보입니다.

:

- description: This check validates the connection between TorSwitch and Server. The
    connection is retriveved via "show lldp neighbors" and cross check with the MAC
    address for NIC port from Server defined in the cell configuration.
  target: xx-yy-torsw02
  targettype: TORSwitch
  checkresult:
    passed: false
    summary: Connection between TorSwitch and Server does not match with the cell
      configuration.
    detail: |-
      Check the cable connection between TorSwitch and Server.
      Error:
      the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1001
    mitigation: If this check failed, it usually means the connection from TorSwitch
      to Server does not match the cell configuration. Or the Server has the wrong
      MAC address for NIC port in the cell configuration. Check the artifacts directory
      or stdout to see which connection flagged.

해결 방법:

대신 show mac address-table을 사용하여 TOR 스위치에서 부트스트래퍼로 연결이 설정되어 있는지 확인합니다.