18. Überprüfungen nach der Hardware

Geschätzte Dauer: 2 Stunden

Eigentümer der bedienbaren Komponente: OELCM

Kompetenzprofil: Bereitstellungsingenieur

18.1. Konfigurationsprüfung

Verwenden Sie die Validierungs-CLI Ihrer Distributed Cloud-Distribution, um die Qualität, Sicherheit und Wirksamkeit der von HPE bereitgestellten Air-Gap-Hardware- und Software-Assets von Google Distributed Cloud (GDC) zu bestätigen und sicherzustellen, dass sie für die Produktion bereit sind.

Die Validierungssuite testet den Zustand, die Installation und die Konfiguration der Geräte und umfasst Tests zur Validierung von Servern, Netzwerk-Switches, Datei-/Blockspeicher, Objektspeicher, Firewalls und HSMs, um nur einige zu nennen.

So prüfen Sie die Hardware:

  1. Führen Sie den CLI-Validierungsbefehl mit Root-Zugriff sudo auf dem Bootstrapper-Computer aus:

    sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheck
    

    Mit diesem Befehl werden alle Logs in ARTIFACTS_DIR aufgezeichnet.

  2. Wenn Fehler gefunden werden, beheben Sie alle Probleme anhand der Fehlermeldungen. Führen Sie die Validierung noch einmal aus.

  3. Wenn alle Berichte fehlerfrei sind, fahren Sie mit dem nächsten Schritt fort.

18.2. Mögliche Probleme

Dieser Abschnitt enthält mögliche Probleme, die bei der Validierung Ihrer Distributed Cloud-Instanz nach der Installation auftreten können.

18.2.1. Mögliche Probleme in allen Google Distributed Cloud-Versionen

18.2.1.1. Netzwerkprüfung kennzeichnet Speichergeräte, die falsch mit dem Patchfeld verbunden sind

Problem:

Eine Prüfung schlägt mit dem Zusammenfassungstext Storage network connection mismatched fehl.

Mit einem Detailtext, der so aussieht:

Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

Das Hauptsymptom ist der zweite Teil des Checks, der eine Art Patchfeldlabel wie r04Ap01BO-ft enthält.

Problemumgehung:

Führen Sie eine manuelle Prüfung in der Zelle CR in der Datei assets/inv/inv-core.yaml durch:

Beispiel für einen Fehler: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

  • Prüfen Sie, ob ein Eintrag mit dem Namen des Speichermediums und des Patchfelds vorhanden ist.

Beispiel: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft wird zu:

        - cableType: MMF
          color: Aqua
          endA: xx-ab-stge01-01:e0g
          endATransceiverMPN: X65404-N-C
          endB: xx-ab-ppl01:r04Ap01BO-ft
          length: 2m
          mpn: 'OM4LCDX #40220 (2m)'
  • Prüfen Sie, ob die Patchfeldverbindungen dem genannten Torswitch zugeordnet sind.

Die andere Seite des Patchfelds finden Sie, indem Sie r04Ap01BO-ft verwenden, den ersten Teil mit dem „r“ und der Ziffer übernehmen und „-ft“ in „-bk“ ändern. r04Ap01BO-ft und r04Ap02BO-ft entsprechen r04Ap01BO-bk

        - cableType: MMF
          color: Magenta
          endA: xx-ab-torsw02:Eth1/1
          endATransceiverMPN: QSFP-100G-SL4
          endB: xx-ab-ppl01:r04Ap01BO-bk
          length: 1.5m
          mpn: '12FMTPOM4 #73704 (1.5m)'
          notes: 25Gb breakout

Das andere Ende des Kabeleingangs sollte dem ersten Teil des Checks entsprechen, in diesem Fall:

„Ethernet 1/1/1“ bedeutet, dass „torsw02“ über eine Breakout-Kassette mit dem ersten Breakout verbunden ist.

Wenn die Zuordnung korrekt aussieht, können Sie diese Prüfung ignorieren.

18.2.1.2. Abgleichsfehler auf der Objektspeicherwebsite (DNS-Suffixfehler)

Problem:

Die benutzerdefinierte Ressource ObjectStorageSite ist auf Ready: false festgelegt und in den zugehörigen Logs wird Reconcile error, retrying: failed to parse location, found malformed DNSSuffix gemeldet.

Problemumgehung:

Ignorieren Sie die Fehler. Sie verschwinden nach dem Schritt „root admin cluster bootstrap“ im Installationsprozess.

18.2.1.3. Falsche Bare-Metal-Maschineneinstellungen für den Root-Administratorcluster

Beispiel für einen Fehler in der Validierungsausgabe:

- passed: false
  description: |-
    BMM setting validation on server xx-yy-bm01 failed with error:
    server has unexpected settings:
    /redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
  target: xx-yy-bm01
  targettype: ServerSettings
  vendorerrorcode: SERVER_TEST_FAIL(0x04)
  gpcerrorcode: FailedInBMMSetting
  mitigation: Refer to the artifact to see which server flags. Check the connection
    to the server iLO port. Check the account of iLO. Check if the iLO and server
    are fully powered up. Check the concerned settings of server ah-ab-bm01.

18.2.1.4. Patchpanel stimmt nicht überein

Problem:

Die Hardwareprüfung sollte auf das Gerät am Ende der Verbindung und nicht auf das direkt verbundene Gerät (xx-xx-ppl) ausgerichtet sein.

Beispiel:

- description: This check validates the storage network connection against the cell
    configuration.
  target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
  targettype: ""
  checkresult:
    passed: false
    summary: Storage network connection mismatched.
    detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
      want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
    vendorerrorcode: ""
    errorcode: VAL-E3026
    mitigation: If this check fails, it can indicate that the Storage system is not
      configurated according to the configuration file. Adjust the cabling so it matches
      with the cell configuration.

Problemumgehung:

Ignorieren Sie die Fehler.

18.2.1.5. Ping-Test fehlgeschlagen

Problem:

Dies ist ein physiologisches Verhalten von CDP, da ARP-Flooding erforderlich ist, um die CAM-Tabelle auf den Switches zu füllen und die Geräte erreichen zu können. Bei den ersten 1 bis 5 Paketen ist die Wahrscheinlichkeit hoch, dass sie verloren gehen.

Beispiel:

- description: This check validates the link quality from the management switches
    to other switches and baremetal node by measuring the packet delivery ratio of
    100 ping requests.
  target: xx-yy-mgmtsw01
  targettype: ManagementSwitch
  checkresult:
    passed: false
    summary: Link quality from ManagementSwitch to other devices is degraded.
    detail: |-
      Check the cable connections of management switch xx-yy-mgmtsw01.
      Error:
      ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1003
    mitigation: If this check failed, it usually means the network cables from the
      management switch need to be inspected or replaced. Check the artifacts directory
      or stdout to see which cable flagged.

Problemumgehung:

Ignorieren Sie die Fehler.

18.2.1.6. ONTAP-Speicherclusternamen prüfen

Problem:

Die Automatisierung sucht nach dem Hostnamen des ONTAP-Geräts, während das ONTAP-Gerät sich auf dem Switch als Seriennummer präsentiert.

Beispiel:

- description: This check validates the storage cluster name and management interface
    are consistent between netapp ontap client and the cell configuration.
  target: yy-stge-clus-01
  targettype: StorageCluster
  checkresult:
    passed: false
    summary: StorageCluster management interface cannot be found.
    detail: StorageCluster management interface x.x.x.x in the cell configuration
      cannot be found in the netapp ontap client.
    vendorerrorcode: STORAGE_TEST_FAIL(0x03)
    errorcode: VAL-E3007
    mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
      configuration is correct.

Problemumgehung:

Ignorieren Sie die Fehler.

18.2.1.7. Bootstrapper – LLDP-Erkennung fehlgeschlagen

Problem:

show lldp neighbors kann den Bootstrapper nicht über den TOR-Schalter finden. Das liegt offenbar daran, dass das Betriebssystem auf dem Bootstrapper (Ubuntu) nicht auf LLDP-Anfragen reagiert.

Beispiel:

- description: This check validates the connection between TorSwitch and Server. The
    connection is retriveved via "show lldp neighbors" and cross check with the MAC
    address for NIC port from Server defined in the cell configuration.
  target: xx-yy-torsw02
  targettype: TORSwitch
  checkresult:
    passed: false
    summary: Connection between TorSwitch and Server does not match with the cell
      configuration.
    detail: |-
      Check the cable connection between TorSwitch and Server.
      Error:
      the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1001
    mitigation: If this check failed, it usually means the connection from TorSwitch
      to Server does not match the cell configuration. Or the Server has the wrong
      MAC address for NIC port in the cell configuration. Check the artifacts directory
      or stdout to see which connection flagged.

Problemumgehung:

Achten Sie darauf, dass eine Verbindung vom TOR-Switch zum Bootstrapper über show mac address-table eingerichtet ist.