18. Controlli post-hardware

Tempo stimato per il completamento: 2 ore

Proprietario del componente azionabile: OELCM

Profilo delle competenze: ingegnere del deployment

18.1. Controllo della configurazione

Per confermare la qualità, la sicurezza e l'efficacia degli asset hardware e software air-gap di Google Distributed Cloud (GDC) forniti da HPE per assicurarti che siano pronti per la produzione, utilizza la CLI di convalida della tua distribuzione Distributed Cloud.

La suite di convalida testa l'integrità, l'installazione e la configurazione dei dispositivi e include test per la convalida di server, switch di rete, archiviazione di file/ blocchi, archiviazione di oggetti, firewall e HSM, solo per citarne alcuni.

Per convalidare l'hardware, completa i seguenti passaggi:

  1. Esegui il comando CLI di convalida con accesso root sudo sulla macchina bootstrapper:

    sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheck
    

    Questo comando registra tutti i log in ARTIFACTS_DIR.

  2. Se vengono rilevati errori, risolvi tutti i problemi in base ai messaggi di errore. Esegui di nuovo la convalida.

  3. Se tutti i report sono integri, vai al passaggio successivo.

18.2. Potenziali problemi

Questa sezione contiene i potenziali problemi che potresti riscontrare durante l'esecuzione della convalida post-installazione dell'istanza Distributed Cloud.

18.2.1. Problemi potenziali in tutte le versioni di Google Distributed Cloud

18.2.1.1. Il controllo di rete segnala in modo errato le appliance di archiviazione collegate al patch panel

Problema:

Un controllo non riesce con il testo riepilogativo: Storage network connection mismatched

Con un testo di dettaglio simile al seguente:

Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

Il sintomo chiave è la seconda parte del controllo contenente un'etichetta del pannello patch come r04Ap01BO-ft.

Soluzione:

Esegui un controllo manuale nella cella RP, che si trova nel file assets/inv/inv-core.yaml:

Utilizzando l'esempio di errore: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

  • Conferma che esista la voce con il dispositivo di archiviazione denominato e il patch panel.

Ad esempio: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft diventa:

        - cableType: MMF
          color: Aqua
          endA: xx-ab-stge01-01:e0g
          endATransceiverMPN: X65404-N-C
          endB: xx-ab-ppl01:r04Ap01BO-ft
          length: 2m
          mpn: 'OM4LCDX #40220 (2m)'
  • Conferma che i collegamenti del patch panel di mappatura al torswitch denominato.

Puoi individuare l'altro lato del pannello patch prendendo r04Ap01BO-ft e prendendo la prima parte con la r e la cifra e modificando -ft in -bk. Mappe di r04Ap01BO-ft e r04Ap02BO-ft per r04Ap01BO-bk

        - cableType: MMF
          color: Magenta
          endA: xx-ab-torsw02:Eth1/1
          endATransceiverMPN: QSFP-100G-SL4
          endB: xx-ab-ppl01:r04Ap01BO-bk
          length: 1.5m
          mpn: '12FMTPOM4 #73704 (1.5m)'
          notes: 25Gb breakout

L'altra estremità dell'ingresso del cavo deve corrispondere alla prima parte del controllo, in questo caso:

Ethernet 1/1/1 significa che torsw02 sulla porta fisica 1 è connesso utilizzando la cassetta breakout al primo breakout.

Se la mappatura sembra corretta, puoi ignorare questo controllo.

18.2.1.2. Errore di riconciliazione sul sito di archiviazione degli oggetti (errore di suffisso DNS)

Problema:

La risorsa personalizzata ObjectStorageSite è impostata su Ready: false e i relativi log segnalano Reconcile error, retrying: failed to parse location, found malformed DNSSuffix.

Soluzione:

Ignora gli errori. Scompaiono dopo il passaggio "bootstrap del cluster di amministrazione principale" nel processo di installazione.

18.2.1.3. Impostazioni della macchina bare metal errate per il cluster di amministrazione principale

Esempio di errore nell'output di convalida:

- passed: false
  description: |-
    BMM setting validation on server xx-yy-bm01 failed with error:
    server has unexpected settings:
    /redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
  target: xx-yy-bm01
  targettype: ServerSettings
  vendorerrorcode: SERVER_TEST_FAIL(0x04)
  gpcerrorcode: FailedInBMMSetting
  mitigation: Refer to the artifact to see which server flags. Check the connection
    to the server iLO port. Check the account of iLO. Check if the iLO and server
    are fully powered up. Check the concerned settings of server ah-ab-bm01.

18.2.1.4. Mancata corrispondenza del pannello di permutazione

Problema:

Il controllo hardware deve essere eseguito sul dispositivo alla fine della connessione e non sul dispositivo connesso direttamente (xx-xx-ppl).

Esempio:

- description: This check validates the storage network connection against the cell
    configuration.
  target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
  targettype: ""
  checkresult:
    passed: false
    summary: Storage network connection mismatched.
    detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
      want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
    vendorerrorcode: ""
    errorcode: VAL-E3026
    mitigation: If this check fails, it can indicate that the Storage system is not
      configurated according to the configuration file. Adjust the cabling so it matches
      with the cell configuration.

Soluzione:

Ignora gli errori.

18.2.1.5. Test ping non riuscito

Problema:

Si tratta di un comportamento fisiologico del CDP, in quanto l'ARP flooding deve avvenire per popolare la tabella CAM sugli switch e poter raggiungere i dispositivi. Si prevede che i primi 1-5 pacchetti abbiano un'alta probabilità di essere eliminati.

Esempio:

- description: This check validates the link quality from the management switches
    to other switches and baremetal node by measuring the packet delivery ratio of
    100 ping requests.
  target: xx-yy-mgmtsw01
  targettype: ManagementSwitch
  checkresult:
    passed: false
    summary: Link quality from ManagementSwitch to other devices is degraded.
    detail: |-
      Check the cable connections of management switch xx-yy-mgmtsw01.
      Error:
      ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1003
    mitigation: If this check failed, it usually means the network cables from the
      management switch need to be inspected or replaced. Check the artifacts directory
      or stdout to see which cable flagged.

Soluzione:

Ignora gli errori.

18.2.1.6. Controllo del nome del cluster di archiviazione ONTAP

Problema:

L'automazione cerca il nome host del dispositivo ONTAP, mentre il dispositivo ONTAP si presenta sullo switch come numero di serie.

Esempio:

- description: This check validates the storage cluster name and management interface
    are consistent between netapp ontap client and the cell configuration.
  target: yy-stge-clus-01
  targettype: StorageCluster
  checkresult:
    passed: false
    summary: StorageCluster management interface cannot be found.
    detail: StorageCluster management interface x.x.x.x in the cell configuration
      cannot be found in the netapp ontap client.
    vendorerrorcode: STORAGE_TEST_FAIL(0x03)
    errorcode: VAL-E3007
    mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
      configuration is correct.

Soluzione:

Ignora gli errori.

18.2.1.7. Bootstrapper LLDP Discovery Fail

Problema:

show lldp neighbors non riesce a trovare il bootstrapper dall'interruttore TOR. Ciò sembra essere dovuto al fatto che il sistema operativo sul bootstrapper (Ubuntu) non risponde alle richieste LLDP.

Esempio:

- description: This check validates the connection between TorSwitch and Server. The
    connection is retriveved via "show lldp neighbors" and cross check with the MAC
    address for NIC port from Server defined in the cell configuration.
  target: xx-yy-torsw02
  targettype: TORSwitch
  checkresult:
    passed: false
    summary: Connection between TorSwitch and Server does not match with the cell
      configuration.
    detail: |-
      Check the cable connection between TorSwitch and Server.
      Error:
      the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1001
    mitigation: If this check failed, it usually means the connection from TorSwitch
      to Server does not match the cell configuration. Or the Server has the wrong
      MAC address for NIC port in the cell configuration. Check the artifacts directory
      or stdout to see which connection flagged.

Soluzione:

Assicurati che sia configurata una connessione al bootstrapper dall'interruttore TOR utilizzando show mac address-table.