18. Pemeriksaan pasca-hardware

Perkiraan waktu penyelesaian: 2 jam

Pemilik komponen yang dapat dioperasikan: OELCM

Profil keterampilan: engineer deployment

18.1. Pemeriksaan konfigurasi

Untuk mengonfirmasi kualitas, keamanan, dan efikasi aset hardware dan software yang terisolasi dari internet Google Distributed Cloud (GDC) yang dikirimkan oleh HPE untuk memastikan bahwa aset tersebut siap digunakan untuk produksi, gunakan CLI validasi distribusi Distributed Cloud Anda.

Rangkaian validasi menguji kondisi, penginstalan, dan konfigurasi perangkat serta mencakup pengujian untuk memvalidasi server, switch jaringan, penyimpanan file/ blok, penyimpanan objek, firewall, dan HSM.

Untuk memvalidasi hardware, selesaikan langkah-langkah berikut:

  1. Jalankan perintah CLI validasi dengan akses root sudo di mesin bootstrapper:

    sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheck
    

    Perintah ini mencatat semua log di ARTIFACTS_DIR.

  2. Jika ada error, perbaiki semua masalah berdasarkan pesan error. Jalankan kembali validasi.

  3. Jika semua laporan dalam kondisi baik, lanjutkan ke langkah berikutnya.

18.2. Potensi masalah

Bagian ini berisi potensi masalah yang mungkin Anda temui saat melakukan validasi pasca-penginstalan instance Distributed Cloud.

18.2.1. Potensi masalah di semua versi Google Distributed Cloud

18.2.1.1. Pemeriksaan jaringan menandai peralatan penyimpanan yang terhubung ke panel patch secara salah

Masalah:

Pemeriksaan gagal dengan teks ringkasan: Storage network connection mismatched

Dengan teks detail yang terlihat seperti berikut:

Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

Gejala utama adalah bagian kedua dari pemeriksaan yang berisi beberapa jenis label panel patch seperti r04Ap01BO-ft.

Solusi:

Lakukan pemeriksaan manual di CR sel, yang ada di file assets/inv/inv-core.yaml:

Menggunakan contoh kegagalan: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

  • Pastikan entri dengan perangkat penyimpanan bernama dan panel patch ada.

Misalnya: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft menjadi:

        - cableType: MMF
          color: Aqua
          endA: xx-ab-stge01-01:e0g
          endATransceiverMPN: X65404-N-C
          endB: xx-ab-ppl01:r04Ap01BO-ft
          length: 2m
          mpn: 'OM4LCDX #40220 (2m)'
  • Konfirmasi bahwa panel patch pemetaan terhubung ke torswitch bernama.

Anda dapat menemukan sisi lain panel patch dengan mengambil r04Ap01BO-ft dan mengambil bagian pertama dengan r dan digit, lalu mengubah -ft menjadi -bk. r04Ap01BO-ft dan r04Ap02BO-ft dipetakan ke r04Ap01BO-bk

        - cableType: MMF
          color: Magenta
          endA: xx-ab-torsw02:Eth1/1
          endATransceiverMPN: QSFP-100G-SL4
          endB: xx-ab-ppl01:r04Ap01BO-bk
          length: 1.5m
          mpn: '12FMTPOM4 #73704 (1.5m)'
          notes: 25Gb breakout

Ujung lain dari entri kabel harus cocok dengan bagian pertama pemeriksaan, dalam hal ini:

Ethernet 1/1/1 berarti torsw02 di port fisik 1 terhubung menggunakan kaset breakout ke breakout pertama.

Jika pemetaan terlihat benar, Anda dapat mengabaikan pemeriksaan ini.

18.2.1.2. Error rekonsiliasi di situs penyimpanan objek (error akhiran DNS)

Masalah:

Resource kustom ObjectStorageSite disetel ke Ready: false, dan lognya melaporkan Reconcile error, retrying: failed to parse location, found malformed DNSSuffix.

Solusi:

Abaikan error. Cluster ini akan menghilang setelah langkah "bootstrap cluster admin root" dalam proses penginstalan.

18.2.1.3. Setelan mesin bare metal yang salah untuk cluster admin root

Contoh kegagalan dalam output validasi:

- passed: false
  description: |-
    BMM setting validation on server xx-yy-bm01 failed with error:
    server has unexpected settings:
    /redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
  target: xx-yy-bm01
  targettype: ServerSettings
  vendorerrorcode: SERVER_TEST_FAIL(0x04)
  gpcerrorcode: FailedInBMMSetting
  mitigation: Refer to the artifact to see which server flags. Check the connection
    to the server iLO port. Check the account of iLO. Check if the iLO and server
    are fully powered up. Check the concerned settings of server ah-ab-bm01.

18.2.1.4. Panel patch tidak cocok

Masalah:

Pemeriksaan hardware harus menargetkan perangkat di akhir koneksi, bukan perangkat yang terhubung langsung (xx-xx-ppl).

Contoh:

- description: This check validates the storage network connection against the cell
    configuration.
  target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
  targettype: ""
  checkresult:
    passed: false
    summary: Storage network connection mismatched.
    detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
      want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
    vendorerrorcode: ""
    errorcode: VAL-E3026
    mitigation: If this check fails, it can indicate that the Storage system is not
      configurated according to the configuration file. Adjust the cabling so it matches
      with the cell configuration.

Solusi:

Abaikan error.

18.2.1.5. Uji ping gagal

Masalah:

Ini adalah perilaku fisiologis CDP, karena ARP flooding perlu terjadi untuk mengisi tabel CAM di switch dan dapat menjangkau perangkat. 1-5 paket pertama diperkirakan memiliki peluang tinggi untuk diturunkan.

Contoh:

- description: This check validates the link quality from the management switches
    to other switches and baremetal node by measuring the packet delivery ratio of
    100 ping requests.
  target: xx-yy-mgmtsw01
  targettype: ManagementSwitch
  checkresult:
    passed: false
    summary: Link quality from ManagementSwitch to other devices is degraded.
    detail: |-
      Check the cable connections of management switch xx-yy-mgmtsw01.
      Error:
      ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1003
    mitigation: If this check failed, it usually means the network cables from the
      management switch need to be inspected or replaced. Check the artifacts directory
      or stdout to see which cable flagged.

Solusi:

Abaikan error.

18.2.1.6. Pemeriksaan Nama Cluster Penyimpanan ONTAP

Masalah:

Otomatisasi mencari nama host perangkat ONTAP, sementara perangkat ONTAP menampilkan dirinya di switch sebagai nomor seri.

Contoh:

- description: This check validates the storage cluster name and management interface
    are consistent between netapp ontap client and the cell configuration.
  target: yy-stge-clus-01
  targettype: StorageCluster
  checkresult:
    passed: false
    summary: StorageCluster management interface cannot be found.
    detail: StorageCluster management interface x.x.x.x in the cell configuration
      cannot be found in the netapp ontap client.
    vendorerrorcode: STORAGE_TEST_FAIL(0x03)
    errorcode: VAL-E3007
    mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
      configuration is correct.

Solusi:

Abaikan error.

18.2.1.7. Bootstrapper LLDP Discovery Fail

Masalah:

show lldp neighbors tidak dapat menemukan bootstrapper dari peralihan TOR. Hal ini tampaknya disebabkan karena OS di bootstrapper (Ubuntu) tidak merespons permintaan LLDP.

Contoh:

- description: This check validates the connection between TorSwitch and Server. The
    connection is retriveved via "show lldp neighbors" and cross check with the MAC
    address for NIC port from Server defined in the cell configuration.
  target: xx-yy-torsw02
  targettype: TORSwitch
  checkresult:
    passed: false
    summary: Connection between TorSwitch and Server does not match with the cell
      configuration.
    detail: |-
      Check the cable connection between TorSwitch and Server.
      Error:
      the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1001
    mitigation: If this check failed, it usually means the connection from TorSwitch
      to Server does not match the cell configuration. Or the Server has the wrong
      MAC address for NIC port in the cell configuration. Check the artifacts directory
      or stdout to see which connection flagged.

Solusi:

Pastikan koneksi disiapkan ke bootstrapper dari switch TOR menggunakan show mac address-table.