18. Vérifications après l'installation du matériel

Durée estimée : 2 heures

Propriétaire du composant actionnable : OELCM

Profil de compétences : ingénieur de déploiement

18.1. Vérification de la configuration

Pour confirmer la qualité, la sécurité et l'efficacité des composants matériels et logiciels Google Distributed Cloud (GDC) isolés fournis par HPE afin de vous assurer qu'ils sont prêts pour la production, utilisez la CLI de validation de votre distribution Distributed Cloud.

La suite de validation teste l'état, l'installation et la configuration des appareils. Elle inclut des tests pour valider les serveurs, les commutateurs réseau, le stockage de fichiers/ blocs, le stockage d'objets, les pare-feu et les HSM, entre autres.

Pour valider le matériel, procédez comme suit :

  1. Exécutez la commande CLI de validation avec accès racine sudo sur la machine du programme d'amorçage :

    sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheck
    

    Cette commande enregistre tous les journaux dans ARTIFACTS_DIR.

  2. Si des erreurs sont détectées, résolvez tous les problèmes en fonction des messages d'erreur. Réexécutez la validation.

  3. Si tous les rapports sont opérationnels, passez à l'étape suivante.

18.2. Problèmes potentiels

Cette section présente les problèmes potentiels que vous pouvez rencontrer lors de la validation post-installation de votre instance Distributed Cloud.

18.2.1. Problèmes potentiels dans toutes les versions de Google Distributed Cloud

18.2.1.1. La vérification du réseau signale à tort les appliances de stockage connectées au panneau de brassage

Problème :

Un contrôle échoue avec le texte récapitulatif suivant : Storage network connection mismatched

Avec un texte de détail qui ressemble à ce qui suit :

Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

Le symptôme clé est la deuxième partie du contrôle, qui contient une étiquette de panneau de brassage de type r04Ap01BO-ft.

Solution :

Effectuez une vérification manuelle dans la cellule CR du fichier assets/inv/inv-core.yaml :

En utilisant l'exemple d'échec : Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

  • Vérifiez qu'une entrée avec un périphérique de stockage nommé et un panneau de brassage existe.

Par exemple, xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft devient :

        - cableType: MMF
          color: Aqua
          endA: xx-ab-stge01-01:e0g
          endATransceiverMPN: X65404-N-C
          endB: xx-ab-ppl01:r04Ap01BO-ft
          length: 2m
          mpn: 'OM4LCDX #40220 (2m)'
  • Vérifiez que les liens du panneau de brassage correspondent au torswitch nommé.

Pour localiser l'autre côté du panneau de brassage, prenez r04Ap01BO-ft, prenez la première partie avec le r et le chiffre, puis remplacez -ft par -bk. r04Ap01BO-ft et r04Ap02BO-ft correspondent à r04Ap01BO-bk

        - cableType: MMF
          color: Magenta
          endA: xx-ab-torsw02:Eth1/1
          endATransceiverMPN: QSFP-100G-SL4
          endB: xx-ab-ppl01:r04Ap01BO-bk
          length: 1.5m
          mpn: '12FMTPOM4 #73704 (1.5m)'
          notes: 25Gb breakout

L'autre extrémité de l'entrée du câble doit correspondre à la première partie de la vérification, dans ce cas :

Ethernet 1/1/1 signifie que torsw02 sur le port physique 1 est connecté à la première sortie à l'aide d'une cassette de répartition.

Si la mise en correspondance semble correcte, vous pouvez ignorer cette vérification.

18.2.1.2. Erreur de rapprochement sur le site de stockage d'objets (erreur de suffixe DNS)

Problème :

La ressource personnalisée ObjectStorageSite est définie sur Ready: false et ses journaux indiquent Reconcile error, retrying: failed to parse location, found malformed DNSSuffix.

Solution :

Ignorez les erreurs. Elles disparaissent après l'étape "Amorçage du cluster d'administrateur racine" du processus d'installation.

18.2.1.3. Paramètres de machine Bare Metal incorrects pour le cluster d'administrateur racine

Exemple d'échec dans le résultat de la validation :

- passed: false
  description: |-
    BMM setting validation on server xx-yy-bm01 failed with error:
    server has unexpected settings:
    /redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
  target: xx-yy-bm01
  targettype: ServerSettings
  vendorerrorcode: SERVER_TEST_FAIL(0x04)
  gpcerrorcode: FailedInBMMSetting
  mitigation: Refer to the artifact to see which server flags. Check the connection
    to the server iLO port. Check the account of iLO. Check if the iLO and server
    are fully powered up. Check the concerned settings of server ah-ab-bm01.

18.2.1.4. Incohérence du panneau de brassage

Problème :

La vérification matérielle doit cibler l'appareil à la fin de la connexion et non l'appareil directement connecté (xx-xx-ppl).

Exemple :

- description: This check validates the storage network connection against the cell
    configuration.
  target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
  targettype: ""
  checkresult:
    passed: false
    summary: Storage network connection mismatched.
    detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
      want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
    vendorerrorcode: ""
    errorcode: VAL-E3026
    mitigation: If this check fails, it can indicate that the Storage system is not
      configurated according to the configuration file. Adjust the cabling so it matches
      with the cell configuration.

Solution :

Ignorez les erreurs.

18.2.1.5. Échec du test ping

Problème :

Il s'agit d'un comportement physiologique du CDP, car l'inondation ARP est nécessaire pour remplir la table CAM sur les commutateurs et pouvoir atteindre les appareils. Les 1 à 5 premiers paquets sont susceptibles d'être perdus.

Exemple :

- description: This check validates the link quality from the management switches
    to other switches and baremetal node by measuring the packet delivery ratio of
    100 ping requests.
  target: xx-yy-mgmtsw01
  targettype: ManagementSwitch
  checkresult:
    passed: false
    summary: Link quality from ManagementSwitch to other devices is degraded.
    detail: |-
      Check the cable connections of management switch xx-yy-mgmtsw01.
      Error:
      ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1003
    mitigation: If this check failed, it usually means the network cables from the
      management switch need to be inspected or replaced. Check the artifacts directory
      or stdout to see which cable flagged.

Solution :

Ignorez les erreurs.

18.2.1.6. Vérification du nom du cluster de stockage ONTAP

Problème :

L'automatisation recherche le nom d'hôte de l'appareil ONTAP, tandis que l'appareil ONTAP se présente sur le commutateur sous la forme d'un numéro de série.

Exemple :

- description: This check validates the storage cluster name and management interface
    are consistent between netapp ontap client and the cell configuration.
  target: yy-stge-clus-01
  targettype: StorageCluster
  checkresult:
    passed: false
    summary: StorageCluster management interface cannot be found.
    detail: StorageCluster management interface x.x.x.x in the cell configuration
      cannot be found in the netapp ontap client.
    vendorerrorcode: STORAGE_TEST_FAIL(0x03)
    errorcode: VAL-E3007
    mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
      configuration is correct.

Solution :

Ignorez les erreurs.

18.2.1.7. Échec de la découverte LLDP de l'amorceur

Problème :

show lldp neighbors ne trouve pas le programme d'amorçage à partir du commutateur TOR. Cela semble être dû au fait que l'OS sur le bootstrapper (Ubuntu) ne répond pas aux requêtes LLDP.

Exemple :

- description: This check validates the connection between TorSwitch and Server. The
    connection is retriveved via "show lldp neighbors" and cross check with the MAC
    address for NIC port from Server defined in the cell configuration.
  target: xx-yy-torsw02
  targettype: TORSwitch
  checkresult:
    passed: false
    summary: Connection between TorSwitch and Server does not match with the cell
      configuration.
    detail: |-
      Check the cable connection between TorSwitch and Server.
      Error:
      the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1001
    mitigation: If this check failed, it usually means the connection from TorSwitch
      to Server does not match the cell configuration. Or the Server has the wrong
      MAC address for NIC port in the cell configuration. Check the artifacts directory
      or stdout to see which connection flagged.

Solution :

Assurez-vous qu'une connexion est configurée au programme d'amorçage à partir du commutateur TOR à l'aide de show mac address-table.