Geschätzte Dauer: 2 Stunden
Eigentümer der bedienbaren Komponente: OELCMKompetenzprofil: Bereitstellungsingenieur
18.1. Konfigurationsprüfung
Verwenden Sie die Validierungs-CLI Ihrer Distributed Cloud-Distribution, um die Qualität, Sicherheit und Wirksamkeit der von HPE bereitgestellten Air-Gap-Hardware- und Software-Assets von Google Distributed Cloud (GDC) zu bestätigen und sicherzustellen, dass sie für die Produktion bereit sind.
Die Validierungssuite testet den Zustand, die Installation und die Konfiguration der Geräte und umfasst Tests zur Validierung von Servern, Netzwerk-Switches, Datei-/Blockspeicher, Objektspeicher, Firewalls und HSMs, um nur einige zu nennen.
So prüfen Sie die Hardware:
Führen Sie den CLI-Validierungsbefehl mit Root-Zugriff
sudoauf dem Bootstrapper-Computer aus:sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheckMit diesem Befehl werden alle Logs in ARTIFACTS_DIR aufgezeichnet.
Wenn Fehler gefunden werden, beheben Sie alle Probleme anhand der Fehlermeldungen. Führen Sie die Validierung noch einmal aus.
Wenn alle Berichte fehlerfrei sind, fahren Sie mit dem nächsten Schritt fort.
18.2. Mögliche Probleme
Dieser Abschnitt enthält mögliche Probleme, die bei der Validierung Ihrer Distributed Cloud-Instanz nach der Installation auftreten können.
18.2.1. Mögliche Probleme in allen Google Distributed Cloud-Versionen
18.2.1.1. Netzwerkprüfung kennzeichnet Speichergeräte, die falsch mit dem Patchfeld verbunden sind
Problem:
Eine Prüfung schlägt mit dem Zusammenfassungstext Storage network connection mismatched fehl.
Mit einem Detailtext, der so aussieht:
Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
Das Hauptsymptom ist der zweite Teil des Checks, der eine Art Patchfeldlabel wie r04Ap01BO-ft enthält.
Problemumgehung:
Führen Sie eine manuelle Prüfung in der Zelle CR in der Datei assets/inv/inv-core.yaml durch:
Beispiel für einen Fehler: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
- Prüfen Sie, ob ein Eintrag mit dem Namen des Speichermediums und des Patchfelds vorhanden ist.
Beispiel: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft wird zu:
- cableType: MMF
color: Aqua
endA: xx-ab-stge01-01:e0g
endATransceiverMPN: X65404-N-C
endB: xx-ab-ppl01:r04Ap01BO-ft
length: 2m
mpn: 'OM4LCDX #40220 (2m)'
- Prüfen Sie, ob die Patchfeldverbindungen dem genannten Torswitch zugeordnet sind.
Die andere Seite des Patchfelds finden Sie, indem Sie r04Ap01BO-ft verwenden, den ersten Teil mit dem „r“ und der Ziffer übernehmen und „-ft“ in „-bk“ ändern.
r04Ap01BO-ft und r04Ap02BO-ft entsprechen r04Ap01BO-bk
- cableType: MMF
color: Magenta
endA: xx-ab-torsw02:Eth1/1
endATransceiverMPN: QSFP-100G-SL4
endB: xx-ab-ppl01:r04Ap01BO-bk
length: 1.5m
mpn: '12FMTPOM4 #73704 (1.5m)'
notes: 25Gb breakout
Das andere Ende des Kabeleingangs sollte dem ersten Teil des Checks entsprechen, in diesem Fall:
„Ethernet 1/1/1“ bedeutet, dass „torsw02“ über eine Breakout-Kassette mit dem ersten Breakout verbunden ist.
Wenn die Zuordnung korrekt aussieht, können Sie diese Prüfung ignorieren.
18.2.1.2. Abgleichsfehler auf der Objektspeicherwebsite (DNS-Suffixfehler)
Problem:
Die benutzerdefinierte Ressource ObjectStorageSite ist auf Ready: false festgelegt und in den zugehörigen Logs wird Reconcile error, retrying: failed to parse location, found malformed DNSSuffix gemeldet.
Problemumgehung:
Ignorieren Sie die Fehler. Sie verschwinden nach dem Schritt „root admin cluster bootstrap“ im Installationsprozess.
18.2.1.3. Falsche Bare-Metal-Maschineneinstellungen für den Root-Administratorcluster
Beispiel für einen Fehler in der Validierungsausgabe:
- passed: false
description: |-
BMM setting validation on server xx-yy-bm01 failed with error:
server has unexpected settings:
/redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
target: xx-yy-bm01
targettype: ServerSettings
vendorerrorcode: SERVER_TEST_FAIL(0x04)
gpcerrorcode: FailedInBMMSetting
mitigation: Refer to the artifact to see which server flags. Check the connection
to the server iLO port. Check the account of iLO. Check if the iLO and server
are fully powered up. Check the concerned settings of server ah-ab-bm01.
18.2.1.4. Patchpanel stimmt nicht überein
Problem:
Die Hardwareprüfung sollte auf das Gerät am Ende der Verbindung und nicht auf das direkt verbundene Gerät (xx-xx-ppl) ausgerichtet sein.
Beispiel:
- description: This check validates the storage network connection against the cell
configuration.
target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
targettype: ""
checkresult:
passed: false
summary: Storage network connection mismatched.
detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
vendorerrorcode: ""
errorcode: VAL-E3026
mitigation: If this check fails, it can indicate that the Storage system is not
configurated according to the configuration file. Adjust the cabling so it matches
with the cell configuration.
Problemumgehung:
Ignorieren Sie die Fehler.
18.2.1.5. Ping-Test fehlgeschlagen
Problem:
Dies ist ein physiologisches Verhalten von CDP, da ARP-Flooding erforderlich ist, um die CAM-Tabelle auf den Switches zu füllen und die Geräte erreichen zu können. Bei den ersten 1 bis 5 Paketen ist die Wahrscheinlichkeit hoch, dass sie verloren gehen.
Beispiel:
- description: This check validates the link quality from the management switches
to other switches and baremetal node by measuring the packet delivery ratio of
100 ping requests.
target: xx-yy-mgmtsw01
targettype: ManagementSwitch
checkresult:
passed: false
summary: Link quality from ManagementSwitch to other devices is degraded.
detail: |-
Check the cable connections of management switch xx-yy-mgmtsw01.
Error:
ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1003
mitigation: If this check failed, it usually means the network cables from the
management switch need to be inspected or replaced. Check the artifacts directory
or stdout to see which cable flagged.
Problemumgehung:
Ignorieren Sie die Fehler.
18.2.1.6. ONTAP-Speicherclusternamen prüfen
Problem:
Die Automatisierung sucht nach dem Hostnamen des ONTAP-Geräts, während das ONTAP-Gerät sich auf dem Switch als Seriennummer präsentiert.
Beispiel:
- description: This check validates the storage cluster name and management interface
are consistent between netapp ontap client and the cell configuration.
target: yy-stge-clus-01
targettype: StorageCluster
checkresult:
passed: false
summary: StorageCluster management interface cannot be found.
detail: StorageCluster management interface x.x.x.x in the cell configuration
cannot be found in the netapp ontap client.
vendorerrorcode: STORAGE_TEST_FAIL(0x03)
errorcode: VAL-E3007
mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
configuration is correct.
Problemumgehung:
Ignorieren Sie die Fehler.
18.2.1.7. Bootstrapper – LLDP-Erkennung fehlgeschlagen
Problem:
show lldp neighbors kann den Bootstrapper nicht über den TOR-Schalter finden. Das liegt offenbar daran, dass das Betriebssystem auf dem Bootstrapper (Ubuntu) nicht auf LLDP-Anfragen reagiert.
Beispiel:
- description: This check validates the connection between TorSwitch and Server. The
connection is retriveved via "show lldp neighbors" and cross check with the MAC
address for NIC port from Server defined in the cell configuration.
target: xx-yy-torsw02
targettype: TORSwitch
checkresult:
passed: false
summary: Connection between TorSwitch and Server does not match with the cell
configuration.
detail: |-
Check the cable connection between TorSwitch and Server.
Error:
the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1001
mitigation: If this check failed, it usually means the connection from TorSwitch
to Server does not match the cell configuration. Or the Server has the wrong
MAC address for NIC port in the cell configuration. Check the artifacts directory
or stdout to see which connection flagged.
Problemumgehung:
Achten Sie darauf, dass eine Verbindung vom TOR-Switch zum Bootstrapper über show mac address-table eingerichtet ist.