Tiempo estimado para completarlo: 2 horas
Propietario del componente operativo: OELCMPerfil de habilidades: ingeniero de implementaciones
18.1. Comprobación de la configuración
Para confirmar la calidad, la seguridad y la eficacia de los recursos de hardware y software aislados de Google Distributed Cloud (GDC) que HPE ha proporcionado para asegurarse de que está listo para producción, usa la CLI de validación de tu distribución de Distributed Cloud.
El conjunto de validación prueba el estado, la instalación y la configuración de los dispositivos, e incluye pruebas para validar servidores, conmutadores de red, almacenamiento de archivos o bloques, almacenamiento de objetos, firewalls y HSMs, entre otros.
Para validar el hardware, sigue estos pasos:
Ejecuta el comando de CLI de validación con acceso root
sudoen el equipo de arranque:sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheckEste comando registra todos los registros en ARTIFACTS_DIR.
Si se detecta algún error, soluciona todos los problemas en función de los mensajes de error. Vuelve a ejecutar la validación.
Si todos los informes son correctos, ve al paso siguiente.
18.2. Posibles problemas
En esta sección se describen los posibles problemas que puedes encontrar al realizar la validación posterior a la instalación de tu instancia de Distributed Cloud.
18.2.1. Posibles problemas en todas las versiones de Google Distributed Cloud
18.2.1.1. La comprobación de la red marca incorrectamente los dispositivos de almacenamiento conectados al panel de conexiones
Problema:
Una comprobación falla con el texto de resumen: Storage network connection mismatched
Con un texto de detalles similar al siguiente:
Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
El síntoma clave es la segunda parte de la comprobación, que contiene algún tipo de etiqueta de panel de conexión, como r04Ap01BO-ft.
Solución:
Haz una comprobación manual en la celda CR, que se encuentra en el archivo assets/inv/inv-core.yaml:
En el ejemplo de error: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
- Confirma que existe una entrada con el dispositivo de almacenamiento y el panel de conexiones con el nombre indicado.
Por ejemplo, xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft se convierte en:
- cableType: MMF
color: Aqua
endA: xx-ab-stge01-01:e0g
endATransceiverMPN: X65404-N-C
endB: xx-ab-ppl01:r04Ap01BO-ft
length: 2m
mpn: 'OM4LCDX #40220 (2m)'
- Confirma que el panel de conexiones se conecta al torswitch con el nombre indicado.
Puedes localizar el otro lado del panel de conexión tomando r04Ap01BO-ft
y la primera parte con la r y el dígito, y cambiando -ft por -bk.
r04Ap01BO-ft y r04Ap02BO-ft de r04Ap01BO-bk
- cableType: MMF
color: Magenta
endA: xx-ab-torsw02:Eth1/1
endATransceiverMPN: QSFP-100G-SL4
endB: xx-ab-ppl01:r04Ap01BO-bk
length: 1.5m
mpn: '12FMTPOM4 #73704 (1.5m)'
notes: 25Gb breakout
El otro extremo de la entrada del cable debe coincidir con la primera parte de la comprobación, en este caso:
Ethernet 1/1/1 significa que torsw02 en el puerto físico 1 está conectado mediante un cassette de conexión al primer breakout.
Si la asignación es correcta, puede ignorar esta comprobación.
18.2.1.2. Error de conciliación en el sitio de almacenamiento de objetos (error de sufijo de DNS)
Problema:
El recurso personalizado ObjectStorageSite se ha definido como Ready: false y sus registros indican Reconcile error, retrying: failed to parse location, found malformed DNSSuffix.
Solución:
Ignora los errores. Desaparecen después del paso "root admin cluster bootstrap" del proceso de instalación.
18.2.1.3. Configuración incorrecta de la máquina física para el clúster de administrador raíz
Ejemplo de error en el resultado de la validación:
- passed: false
description: |-
BMM setting validation on server xx-yy-bm01 failed with error:
server has unexpected settings:
/redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
target: xx-yy-bm01
targettype: ServerSettings
vendorerrorcode: SERVER_TEST_FAIL(0x04)
gpcerrorcode: FailedInBMMSetting
mitigation: Refer to the artifact to see which server flags. Check the connection
to the server iLO port. Check the account of iLO. Check if the iLO and server
are fully powered up. Check the concerned settings of server ah-ab-bm01.
18.2.1.4. Patch panel mismatch
Problema:
La comprobación del hardware debe dirigirse al dispositivo que está al final de la conexión y no al dispositivo conectado directamente (xx-xx-ppl).
Ejemplo:
- description: This check validates the storage network connection against the cell
configuration.
target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
targettype: ""
checkresult:
passed: false
summary: Storage network connection mismatched.
detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
vendorerrorcode: ""
errorcode: VAL-E3026
mitigation: If this check fails, it can indicate that the Storage system is not
configurated according to the configuration file. Adjust the cabling so it matches
with the cell configuration.
Solución:
Ignora los errores.
18.2.1.5. Error en la prueba de ping
Problema:
Este es un comportamiento fisiológico de CDP, ya que es necesario que se produzca una inundación de ARP para rellenar la tabla CAM en los conmutadores y poder acceder a los dispositivos. Se espera que los primeros 1-5 paquetes tengan una alta probabilidad de perderse.
Ejemplo:
- description: This check validates the link quality from the management switches
to other switches and baremetal node by measuring the packet delivery ratio of
100 ping requests.
target: xx-yy-mgmtsw01
targettype: ManagementSwitch
checkresult:
passed: false
summary: Link quality from ManagementSwitch to other devices is degraded.
detail: |-
Check the cable connections of management switch xx-yy-mgmtsw01.
Error:
ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1003
mitigation: If this check failed, it usually means the network cables from the
management switch need to be inspected or replaced. Check the artifacts directory
or stdout to see which cable flagged.
Solución:
Ignora los errores.
18.2.1.6. Comprobación del nombre del clúster de almacenamiento de ONTAP
Problema:
La automatización busca el nombre de host del dispositivo ONTAP, mientras que el dispositivo ONTAP se presenta en el switch como un número de serie.
Ejemplo:
- description: This check validates the storage cluster name and management interface
are consistent between netapp ontap client and the cell configuration.
target: yy-stge-clus-01
targettype: StorageCluster
checkresult:
passed: false
summary: StorageCluster management interface cannot be found.
detail: StorageCluster management interface x.x.x.x in the cell configuration
cannot be found in the netapp ontap client.
vendorerrorcode: STORAGE_TEST_FAIL(0x03)
errorcode: VAL-E3007
mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
configuration is correct.
Solución:
Ignora los errores.
18.2.1.7. Bootstrapper LLDP Discovery Fail
Problema:
show lldp neighbors no puede encontrar el bootstrapper desde el interruptor TOR. Parece que esto se debe a que el SO del bootstrapper (Ubuntu) no responde a las solicitudes LLDP.
Ejemplo:
- description: This check validates the connection between TorSwitch and Server. The
connection is retriveved via "show lldp neighbors" and cross check with the MAC
address for NIC port from Server defined in the cell configuration.
target: xx-yy-torsw02
targettype: TORSwitch
checkresult:
passed: false
summary: Connection between TorSwitch and Server does not match with the cell
configuration.
detail: |-
Check the cable connection between TorSwitch and Server.
Error:
the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1001
mitigation: If this check failed, it usually means the connection from TorSwitch
to Server does not match the cell configuration. Or the Server has the wrong
MAC address for NIC port in the cell configuration. Check the artifacts directory
or stdout to see which connection flagged.
Solución:
Asegúrate de que se ha configurado una conexión al bootstrapper desde el conmutador TOR mediante show mac address-table.