18. ハードウェアのチェック後

完了までの推定時間: 2 時間

操作可能なコンポーネントの所有者: OELCM

スキル プロファイル: デプロイ エンジニア

18.1. 構成チェック

HPE が提供する Google Distributed Cloud(GDC)のエアギャップ ハードウェアとソフトウェア アセットの品質、安全性、有効性を確認し、本番環境で使用できる状態であることを確認するには、Distributed Cloud ディストリビューションの検証 CLI を使用します。

検証スイートは、デバイスの健全性、インストール、構成をテストします。また、サーバー、ネットワーク スイッチ、ファイル/ ブロック ストレージ、オブジェクト ストレージ、ファイアウォール、HSM などを検証するテストも含まれています。

ハードウェアを検証するには、次の操作を行います。

  1. ブートストラップ マシンで、ルートアクセス sudo を使用して検証 CLI コマンドを実行します。

    sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheck
    

    このコマンドは、ARTIFACTS_DIR にすべてのログを記録します。

  2. エラーが見つかった場合は、エラー メッセージに基づいてすべての問題を解決します。検証を再実行します。

  3. すべてのレポートが正常な場合は、次のステップに進みます。

18.2. 発生しうる問題

このセクションでは、Distributed Cloud インスタンスのインストール後の検証を行う際に発生する可能性のある問題について説明します。

18.2.1. すべての Google Distributed Cloud バージョンで発生する可能性のある問題

18.2.1.1. ネットワーク チェックで、パッチパネルに接続されたストレージ アプライアンスが誤ってフラグ設定される

問題:

チェックが失敗し、概要テキストが表示される: Storage network connection mismatched

次のような詳細テキストが表示されます。

Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

主な症状は、r04Ap01BO-ft のようなパッチパネル ラベルを含むチェックの 2 番目の部分です。

回避策:

assets/inv/inv-core.yaml ファイルにあるセル CR で手動チェックを行います。

失敗の例: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

  • 名前付きストレージ デバイスとパッチパネルのエントリが存在することを確認します。

たとえば、xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft は次のようになります。

        - cableType: MMF
          color: Aqua
          endA: xx-ab-stge01-01:e0g
          endATransceiverMPN: X65404-N-C
          endB: xx-ab-ppl01:r04Ap01BO-ft
          length: 2m
          mpn: 'OM4LCDX #40220 (2m)'
  • マッピング パッチパネルが名前付き torswitch にリンクしていることを確認します。

パッチパネルの反対側を見つけるには、r04Ap01BO-ft を取得し、r と数字を含む最初の部分を取得して、-ft を -bk に変更します。r04Ap01BO-ftr04Ap02BO-ftr04Ap01BO-bk にマッピングされます

        - cableType: MMF
          color: Magenta
          endA: xx-ab-torsw02:Eth1/1
          endATransceiverMPN: QSFP-100G-SL4
          endB: xx-ab-ppl01:r04Ap01BO-bk
          length: 1.5m
          mpn: '12FMTPOM4 #73704 (1.5m)'
          notes: 25Gb breakout

ケーブル エントリのもう一方の端は、チェックの最初の部分と一致する必要があります。この場合は次のようになります。

イーサネット 1/1/1 は、物理ポート 1 の torsw02 がブレークアウト カセットを使用して最初のブレークアウトに接続されていることを意味します。

マッピングが正しい場合は、このチェックを無視できます。

18.2.1.2. オブジェクト ストレージ サイトでの調整エラー(DNS 接尾辞エラー)

問題:

ObjectStorageSite カスタム リソースが Ready: false に設定され、そのログに Reconcile error, retrying: failed to parse location, found malformed DNSSuffix が報告されます。

回避策:

エラーは無視してください。インストール プロセスの「root admin cluster bootstrap」ステップの後に消えます。

18.2.1.3. ルート管理クラスタのベアメタル マシンの設定が正しくない

検証出力の失敗の例:

- passed: false
  description: |-
    BMM setting validation on server xx-yy-bm01 failed with error:
    server has unexpected settings:
    /redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
  target: xx-yy-bm01
  targettype: ServerSettings
  vendorerrorcode: SERVER_TEST_FAIL(0x04)
  gpcerrorcode: FailedInBMMSetting
  mitigation: Refer to the artifact to see which server flags. Check the connection
    to the server iLO port. Check the account of iLO. Check if the iLO and server
    are fully powered up. Check the concerned settings of server ah-ab-bm01.

18.2.1.4. パッチパネルの不一致

問題:

ハードウェア チェックは、直接接続されたデバイス(xx-xx-ppl)ではなく、接続の末端にあるデバイスを対象とする必要があります。

:

- description: This check validates the storage network connection against the cell
    configuration.
  target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
  targettype: ""
  checkresult:
    passed: false
    summary: Storage network connection mismatched.
    detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
      want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
    vendorerrorcode: ""
    errorcode: VAL-E3026
    mitigation: If this check fails, it can indicate that the Storage system is not
      configurated according to the configuration file. Adjust the cabling so it matches
      with the cell configuration.

回避策:

エラーは無視してください。

18.2.1.5. Ping テストに失敗しました

問題:

これは CDP の生理学的動作です。スイッチの CAM テーブルにデータを入力してデバイスに到達するには、ARP フラッディングが必要です。最初の 1 ~ 5 個のパケットはドロップされる可能性が高いと予想されます。

:

- description: This check validates the link quality from the management switches
    to other switches and baremetal node by measuring the packet delivery ratio of
    100 ping requests.
  target: xx-yy-mgmtsw01
  targettype: ManagementSwitch
  checkresult:
    passed: false
    summary: Link quality from ManagementSwitch to other devices is degraded.
    detail: |-
      Check the cable connections of management switch xx-yy-mgmtsw01.
      Error:
      ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1003
    mitigation: If this check failed, it usually means the network cables from the
      management switch need to be inspected or replaced. Check the artifacts directory
      or stdout to see which cable flagged.

回避策:

エラーは無視してください。

18.2.1.6. ONTAP ストレージ クラスタ名のチェック

問題:

自動化では ONTAP デバイスのホスト名が検索されますが、ONTAP デバイスはシリアル番号としてスイッチに表示されます。

:

- description: This check validates the storage cluster name and management interface
    are consistent between netapp ontap client and the cell configuration.
  target: yy-stge-clus-01
  targettype: StorageCluster
  checkresult:
    passed: false
    summary: StorageCluster management interface cannot be found.
    detail: StorageCluster management interface x.x.x.x in the cell configuration
      cannot be found in the netapp ontap client.
    vendorerrorcode: STORAGE_TEST_FAIL(0x03)
    errorcode: VAL-E3007
    mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
      configuration is correct.

回避策:

エラーは無視してください。

18.2.1.7. Bootstrapper LLDP 検出失敗

問題:

show lldp neighbors は TOR スイッチからブートストラッパーを見つけることができません。これは、ブートストラップ(Ubuntu)の OS が LLDP リクエストに応答しないためと思われます。

:

- description: This check validates the connection between TorSwitch and Server. The
    connection is retriveved via "show lldp neighbors" and cross check with the MAC
    address for NIC port from Server defined in the cell configuration.
  target: xx-yy-torsw02
  targettype: TORSwitch
  checkresult:
    passed: false
    summary: Connection between TorSwitch and Server does not match with the cell
      configuration.
    detail: |-
      Check the cable connection between TorSwitch and Server.
      Error:
      the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1001
    mitigation: If this check failed, it usually means the connection from TorSwitch
      to Server does not match the cell configuration. Or the Server has the wrong
      MAC address for NIC port in the cell configuration. Check the artifacts directory
      or stdout to see which connection flagged.

回避策:

代わりに show mac address-table を使用して、TOR スイッチからブートストラッパーへの接続が設定されていることを確認します。