Résoudre les problèmes d'accès aux appliances

Cette page explique comment résoudre les problèmes d'inaccessibilité de l'appliance après l'amorçage. Vous pouvez rencontrer les problèmes suivants :

  • Des messages d'erreur tels que Unable to connect to the server: dial tcp 198.18.0.64:443: i/o timeout s'affichent lorsque vous essayez d'interroger à l'aide de kubectl.
  • Erreur Webpage not available lors de la tentative d'accès à l'UI.
  • Les applications déployées sur l'appliance ne fonctionnent pas ou vous ne pouvez pas en déployer de nouvelles.

Résoudre les problèmes d'inaccessibilité de l'UI

Organigramme pour déboguer un problème d'inaccessibilité de l'UI

  1. Suivez le runbook UI inaccessible pour résoudre le problème.
  2. Vérifiez si le cluster est accessible en suivant la section Accessibilité du cluster.
  3. Si le cluster répond, vérifiez si l'API Management est accessible en suivant la section API Management accessible.
  4. Si le cluster n'est pas accessible et renvoie des erreurs telles que Connection timed out ou i/o timeout error, consultez le guide de dépannage pour obtenir d'autres étapes de dépannage.

Procédure de dépannage de base

Emplacements des voyants LED sur l'appareil

  1. Vérifiez l'alimentation du châssis en vérifiant si les voyants (verts) de l'une ou l'autre des deux alimentations sont allumés, comme indiqué par les flèches sur l'image.

    État du voyant LED Description
    Vert fixe Système activé et fonctionnement normal
    Vert clignotant Alimentation en veille présente (alimentation éteinte)
    Ambre solide Alimentation défaillante (surtension/sous-tension, surchauffe, surintensité, court-circuit), ventilateur défaillant ou protection contre la surtension d'entrée
    Ambre clignotant Erreur d'alimentation
    Désactivé Aucun courant n'est présent ou l'alimentation en veille a échoué (surtension/ sous-tension, surchauffe, surintensité, court-circuit, blocage du ventilateur)
  2. Si les voyants sont éteints, assurez-vous d'abord que le câble d'alimentation est alimenté. Si le câble d'alimentation fonctionne correctement, il est probable que les alimentations soient défectueuses et doivent être remplacées. Pour obtenir des instructions de remplacement, consultez le Guide de remplacement de l'alimentation.

  3. Si les alimentations fonctionnent, mais que l'appareil ne marche toujours pas, vérifiez si des connexions sont desserrées ou endommagées.

  4. Vérifiez que les voyants du commutateur et des serveurs sont allumés, comme indiqué par les flèches sur l'image.

  5. Si le voyant Link du commutateur est vert fixe, vérifiez qu'il est opérationnel en suivant la section Vérifier que le commutateur est opérationnel.

  6. Si l'état et la configuration du commutateur sont corrects, connectez-vous à iLO en suivant les étapes décrites dans Étapes pour se connecter à iLO afin de vérifier l'état de l'appareil.

    1. Si l'un des ventilateurs est critique, contactez l'équipe d'assistance HPE pour le remplacer et suivez le Guide de remplacement des ventilateurs.
    2. Si des lames sont éteintes, allumez-les en accédant à la section "Lames", en sélectionnant la lame, puis en appuyant sur le bouton Marche/Arrêt.
    3. Si l'un des blades est dans un état critique, accédez à la section "Blades", sélectionnez le blade critique, accédez à la section "Power" et lancez une réinitialisation forcée du système.
    4. Si l'état du châssis est critique, vous pouvez également essayer de le réinitialiser en accédant à l'onglet Alimentation et refroidissement. Sélectionnez la section Gestion de l'alimentation, puis cliquez sur Réinitialiser le bouton EL8000CM. Ce processus réinitialise le micrologiciel du gestionnaire de châssis et peut prendre quelques minutes, pendant lesquelles le châssis n'est pas disponible.
    5. Si le problème persiste, accédez à l'onglet Informations, sélectionnez Journaux, choisissez Journaux d'état dans le menu déroulant, puis téléchargez-les au format CSV. Créez une demande auprès de Google et joignez-y les journaux pour demander le remplacement du matériel.

    Journaux de santé

  7. Si les voyants d'alimentation des lames sont allumés, effectuez un test ping sur les adresses IP des lames suivantes à partir d'une machine connectée à l'appliance :

        ping 198.18.0.7  //BM01
        ping 198.18.0.8  //BM02
        ping 198.18.0.9  //BM03
    

    Si le test ping réussit, cela signifie que les nœuds sont opérationnels.

  8. Si tous les nœuds échouent au test ping, contactez l'assistance Google.

  9. Si le problème persiste après avoir suivi toutes les étapes décrites dans cette section, transférez-le à l'assistance Google pour obtenir de l'aide.

Connexions desserrées ou endommagées

  1. Vérifiez que toutes les connexions sont sécurisées et correctement branchées. Pour savoir comment vérifier et sécuriser les connexions des câbles dans l'appliance, consultez Vérifier les câbles.

  2. Vérifiez que les câbles ne présentent aucun dommage visible. Si des câbles sont endommagés, remplacez-les.

Vérifier que le commutateur fonctionne

  1. Connectez-vous à la console série du commutateur. Si la connexion réussit, exécutez la commande suivante pour vérifier l'état du commutateur. Cette commande affiche le temps d'activité et la consommation de ressources du commutateur.

    show version
    
  2. Si la console série répond, validez la configuration BGP sur le commutateur en vous reportant à Valider le récapitulatif BGP.

  3. Si le voyant Link est éteint ou si la console série ne répond pas, il est possible que le commutateur soit défectueux. Signalez le problème à l'assistance Google pour obtenir un appareil de remplacement.

Vérifier l'accessibilité du cluster

  1. Connectez-vous à la session gdcloud avec les identifiants IO :

    gdcloud auth login
    
  2. Si vous ne parvenez pas à vous connecter, recherchez les identifiants d'urgence sauvegardés lors de la configuration de l'appliance à utiliser avec la commande -: root-admin-kubeconfig.

  3. Vérifiez si le cluster est accessible :

    kubectl --kubeconfig root-admin-kubeconfig get servers -A
    

Vérifier l'accessibilité de l'API Management

  1. Connectez-vous à la session gdcloud avec les identifiants IO :

    gdcloud auth login
    

    Si la connexion échoue, connectez-vous avec les identifiants du plan de gestion.

  2. Il arrive que la base de données AIS fonctionne mal ou soit mal configurée, ce qui entraîne un échec de la connexion. Consultez IAM-R0009 – Base de données AIS.

  3. Si vous ne parvenez pas à résoudre les problèmes de connexion, recherchez les identifiants d'urgence sauvegardés lors de la configuration de l'appliance à utiliser avec la commande -: root-admin-kubeconfig.

  4. Récupérez le fichier kubeconfig du plan de gestion :

    kubectl --kubeconfig root-admin-kubeconfig -n management-kube-system get secret kube-admin-remote-kubeconfig -ojsonpath='{.data.value}' | base64 -d > kube-admin-remote-kubeconfig
    
  5. Obtenez l'état de santé du cluster :

    kubectl --kubeconfig kube-admin-remote-kubeconfig get --raw='/readyz?verbose'