18. Verificações pós-hardware

Tempo estimado até à conclusão: 2 horas

Proprietário do componente operável: OELCM

Perfil de competências: engenheiro de implementação

18.1. Verificação da configuração

Para confirmar a qualidade, a segurança e a eficácia dos recursos de hardware e software isolados do Google Distributed Cloud (GDC) fornecidos pela HPE para garantir que estão prontos para produção, use a CLI de validação da sua distribuição do Distributed Cloud.

O conjunto de validação testa o estado, a instalação e a configuração dos dispositivos, e inclui testes para validar servidores, comutadores de rede, armazenamento de ficheiros/ blocos, armazenamento de objetos, firewalls e HSMs, entre outros.

Para validar o hardware, conclua os seguintes passos:

  1. Execute o comando CLI de validação com acesso de administrador sudo na máquina de arranque:

    sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheck
    

    Este comando regista todos os registos no ARTIFACTS_DIR.

  2. Se forem encontrados erros, corrija todos os problemas com base nas mensagens de erro. Volte a executar a validação.

  3. Se todos os relatórios estiverem em bom estado, avance para o passo seguinte.

18.2. Potenciais problemas

Esta secção contém potenciais problemas que pode encontrar ao realizar a validação pós-instalação da sua instância do Distributed Cloud.

18.2.1. Potenciais problemas em todas as versões do Google Distributed Cloud

18.2.1.1. A verificação de rede sinaliza incorretamente os aparelhos de armazenamento ligados ao painel de ligações

Problema:

Uma verificação falha com o texto de resumo: Storage network connection mismatched

Com um texto de detalhe semelhante ao seguinte:

Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

O sintoma principal é a segunda parte da verificação que contém algum tipo de etiqueta do painel de remendos, como r04Ap01BO-ft.

Solução alternativa:

Faça uma verificação manual no CR da célula, que se encontra no ficheiro assets/inv/inv-core.yaml:

Usando a falha de exemplo: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1, want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft

  • Confirme se existe uma entrada com o dispositivo de armazenamento e o painel de ligações com nome.

Por exemplo: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft torna-se:

        - cableType: MMF
          color: Aqua
          endA: xx-ab-stge01-01:e0g
          endATransceiverMPN: X65404-N-C
          endB: xx-ab-ppl01:r04Ap01BO-ft
          length: 2m
          mpn: 'OM4LCDX #40220 (2m)'
  • Confirme se o painel de patch de mapeamento está associado ao comutador de nível superior com nome.

Pode localizar o outro lado do painel de remendos tomando r04Ap01BO-ft e tomando a primeira parte com o r e o dígito e alterando -ft para -bk. r04Ap01BO-ft e r04Ap02BO-ft mapas para r04Ap01BO-bk

        - cableType: MMF
          color: Magenta
          endA: xx-ab-torsw02:Eth1/1
          endATransceiverMPN: QSFP-100G-SL4
          endB: xx-ab-ppl01:r04Ap01BO-bk
          length: 1.5m
          mpn: '12FMTPOM4 #73704 (1.5m)'
          notes: 25Gb breakout

A outra extremidade da entrada do cabo deve corresponder à primeira parte da verificação, neste caso:

Ethernet 1/1/1 significa que torsw02 na porta física 1 está ligado através de uma cassete de divisão à primeira divisão.

Se o mapeamento parecer correto, pode ignorar esta verificação.

18.2.1.2. Erro de conciliação no site de armazenamento de objetos (erro de sufixo DNS)

Problema:

O ObjectStorageSite recurso personalizado está definido como Ready: false e os respetivos registos comunicam Reconcile error, retrying: failed to parse location, found malformed DNSSuffix.

Solução alternativa:

Ignore os erros. Desaparecem após o passo "root admin cluster bootstrap" no processo de instalação.

18.2.1.3. Definições incorretas da máquina bare metal para o cluster de administrador principal

Exemplo de falha no resultado da validação:

- passed: false
  description: |-
    BMM setting validation on server xx-yy-bm01 failed with error:
    server has unexpected settings:
    /redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
  target: xx-yy-bm01
  targettype: ServerSettings
  vendorerrorcode: SERVER_TEST_FAIL(0x04)
  gpcerrorcode: FailedInBMMSetting
  mitigation: Refer to the artifact to see which server flags. Check the connection
    to the server iLO port. Check the account of iLO. Check if the iLO and server
    are fully powered up. Check the concerned settings of server ah-ab-bm01.

18.2.1.4. Não correspondência do painel de ligação

Problema:

A verificação de hardware deve ter como alvo o dispositivo no final da ligação e não o dispositivo ligado diretamente (xx-xx-ppl).

Exemplo:

- description: This check validates the storage network connection against the cell
    configuration.
  target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
  targettype: ""
  checkresult:
    passed: false
    summary: Storage network connection mismatched.
    detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
      want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
    vendorerrorcode: ""
    errorcode: VAL-E3026
    mitigation: If this check fails, it can indicate that the Storage system is not
      configurated according to the configuration file. Adjust the cabling so it matches
      with the cell configuration.

Solução alternativa:

Ignore os erros.

18.2.1.5. Falha no teste de ping

Problema:

Este é um comportamento fisiológico do CDP, uma vez que o ARP flooding tem de ocorrer para preencher a tabela CAM nos comutadores e poder alcançar os dispositivos. Espera-se que os primeiros 1 a 5 pacotes tenham uma alta probabilidade de serem ignorados.

Exemplo:

- description: This check validates the link quality from the management switches
    to other switches and baremetal node by measuring the packet delivery ratio of
    100 ping requests.
  target: xx-yy-mgmtsw01
  targettype: ManagementSwitch
  checkresult:
    passed: false
    summary: Link quality from ManagementSwitch to other devices is degraded.
    detail: |-
      Check the cable connections of management switch xx-yy-mgmtsw01.
      Error:
      ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
      ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1003
    mitigation: If this check failed, it usually means the network cables from the
      management switch need to be inspected or replaced. Check the artifacts directory
      or stdout to see which cable flagged.

Solução alternativa:

Ignore os erros.

18.2.1.6. Verificação do nome do cluster de armazenamento ONTAP

Problema:

A automatização está à procura do nome do anfitrião do dispositivo ONTAP, enquanto o dispositivo ONTAP se apresenta no comutador como um número de série.

Exemplo:

- description: This check validates the storage cluster name and management interface
    are consistent between netapp ontap client and the cell configuration.
  target: yy-stge-clus-01
  targettype: StorageCluster
  checkresult:
    passed: false
    summary: StorageCluster management interface cannot be found.
    detail: StorageCluster management interface x.x.x.x in the cell configuration
      cannot be found in the netapp ontap client.
    vendorerrorcode: STORAGE_TEST_FAIL(0x03)
    errorcode: VAL-E3007
    mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
      configuration is correct.

Solução alternativa:

Ignore os erros.

18.2.1.7. Bootstrapper LLDP Discovery Fail

Problema:

show lldp neighbors não consegue encontrar o bootstrapper no comutador TOR. Isto deve-se ao facto de o SO no bootstrapper (Ubuntu) não responder a pedidos LLDP.

Exemplo:

- description: This check validates the connection between TorSwitch and Server. The
    connection is retriveved via "show lldp neighbors" and cross check with the MAC
    address for NIC port from Server defined in the cell configuration.
  target: xx-yy-torsw02
  targettype: TORSwitch
  checkresult:
    passed: false
    summary: Connection between TorSwitch and Server does not match with the cell
      configuration.
    detail: |-
      Check the cable connection between TorSwitch and Server.
      Error:
      the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
    vendorerrorcode: SWITCH_TEST_FAIL(0x01)
    errorcode: VAL-E1001
    mitigation: If this check failed, it usually means the connection from TorSwitch
      to Server does not match the cell configuration. Or the Server has the wrong
      MAC address for NIC port in the cell configuration. Check the artifacts directory
      or stdout to see which connection flagged.

Solução alternativa:

Certifique-se de que é configurada uma ligação ao bootstrapper a partir do comutador TOR através de show mac address-table.