Accéder aux notifications logicielles
Consultez les outils suivants pour savoir quand un problème apparaît dans les composants logiciels de votre plate-forme :
- Tableau de bord logiciel commun : pour les notifications concernant les informations sur l'état du système, telles que les composants, les clusters, les services et les VM GKE Enterprise.
- Votre boîte aux lettres : pour les notifications par e-mail qui incluent des informations de base sur le problème, comme les codes d'erreur.
Cliquez sur une notification pour afficher la page du composant problématique et accéder aux journaux correspondants.
Configurer les destinataires des notifications
Configurez les canaux de communication suivants pour recevoir des alertes, même s'ils sont déconnectés du tableau de bord :
- SMS
- Notifications par e-mail
- PagerDuty
Organisez le type de notification et le rôle du destinataire (facturation, logiciel et matériel, par exemple).
Comprendre les erreurs logicielles
Suivez ces pratiques pour accéder aux informations pertinentes sur les erreurs des composants logiciels, résoudre le problème et contacter l'assistance de manière efficace :
- Recherchez le code d'erreur de chaque erreur.
- Utilisez les codes d'erreur pour rechercher des informations dans la documentation locale et en ligne.
- L'interface utilisateur fournit des extraits d'informations sur des erreurs spécifiques. Pointez sur un code d'erreur pour afficher les extraits.
Retirer les informations sensibles des données de dépannage logiciel
Assurez-vous que les informations de dépannage des composants logiciels sont nettoyées, y compris les configurations, les journaux, l'état et les métriques de toutes les données sensibles, et respectez les exigences de souveraineté.
Google Distributed Cloud (GDC) sous air gap fournit une liste de mots clés sensibles par défaut à masquer et à supprimer. Pour anonymiser les informations de dépannage, procédez comme suit :
- Personnalisez la liste par défaut en ajoutant et en supprimant des mots clés personnalisés.
- Recevez un rapport de toutes les occurrences masquées.
- Recevoir des avertissements concernant les informations sensibles restantes potentielles
Voici quelques éléments essentiels à obscurcir :
- Noms de domaine complets
- Adresses IP
- Noms d'utilisateur
- Noms d'hôte
- Noms des charges de travail
- Hachages
- Certificats
- Noms des clients
Créer un instantané du système logiciel
Créez un instantané de vos composants logiciels pour rassembler toutes les informations nécessaires au dépannage du problème et pour interagir efficacement avec l'assistance :
- Sélectionnez les composants à inclure.
- Générez un fichier tar contenant toutes les configurations, tous les journaux, tous les états et toutes les métriques requis.
- Spécifiez le composant à déboguer.
- Spécifiez comment assainir les données.
Partager des informations avec l'assistance
Google fournit une assistance de niveau 1 (L1) et de niveau 2 (L2) pour GDC.
Appliquer des règles sur le partage d'instantanés
Suivez ces pratiques pour vous assurer que les données d'instantané que vous partagez avec l'assistance sont sécurisées, protégées et soumises à des règles de conservation des données que vous contrôlez :
- Définissez et appliquez des règles de contrôle des accès à l'instantané.
- Définissez et appliquez des règles de conservation des données pour l'instantané.
- Configurez un canal sécurisé pour importer l'instantané sur le portail d'assistance.
Accéder aux notifications matérielles
Consultez les notifications qui s'affichent lorsqu'un problème survient dans les composants matériels de votre plate-forme. Les notifications s'affichent dans le Gestionnaire de système et fournissent des informations sur l'état des composants matériels tels que les racks, les serveurs, les commutateurs et le stockage.
Vous pouvez également recevoir des notifications par e-mail. Elles incluent des informations de base sur le problème, comme les codes d'erreur. Cliquez sur la notification pour afficher la page du composant problématique et accéder aux journaux correspondants.
Demander une augmentation de capacité
Surveillez et prévoyez la capacité matérielle supplémentaire, et demandez-la pour assurer l'état et l'évolutivité de vos charges de travail.
Traiter l'instantané système
Avant de traiter l'instantané système, assurez-vous de remplir les conditions suivantes :
- L'outil d'instantané est connecté à un cluster en cours d'exécution.
- Vous disposez des autorisations nécessaires suivantes pour lire la configuration et les journaux sur le cluster :
- Les opérateurs d'applications disposent de fonctionnalités d'administration.
- Les administrateurs de plate-forme ont des autorisations d'accès limitées aux informations qui leur sont attribuées.
Pour traiter l'instantané système, sélectionnez les composants du système à inclure dans l'instantané. L'outil se connecte à votre cluster pour extraire des informations pour chaque composant sélectionné. Une fois les données récupérées, elles sont post-traitées pour filtrer les données sensibles. L'outil regroupe ensuite les informations dans un fichier ZIP.
Si vous le souhaitez, vous pouvez inspecter le fichier ZIP et son contenu pour vous assurer de ne pas capturer de données sensibles avant de le partager avec l'assistance.
Accéder à la documentation d'assistance
Accédez à la documentation et aux playbooks suivants pour vous aider à résoudre le problème du client :
- Playbooks d'assistance
- Documentation publique, bonnes pratiques, questions fréquentes et base de connaissances
- La communauté des utilisateurs
Un partenaire peut fournir une assistance de niveau 1 et 2. Ces artefacts doivent donc être accessibles publiquement.
Transmettre un problème logiciel au niveau 3
Pour escalader un problème logiciel à Google afin de bénéficier d'une assistance de niveau 3 (L3) ou avancée, procédez comme suit :
- Demandez l'autorisation de partager les données d'instantané avec Google.
- Créez une demande d'assistance auprès de Google.
- Autorisez Google à accéder à votre instantané.
- Surveiller les opérations effectuées par Google sur l'instantané et en assurer la visibilité
Escalader un problème matériel au niveau 3
Pour escalader un problème à Google causé par une défaillance matérielle, procédez comme suit :
- Extrayez et assainissez les informations minimales pour résoudre les problèmes liés aux composants matériels :
- Journaux
- État et configurations
- Métriques
- Informations physiques telles que le numéro de rack, le type de composant, le numéro de série et l'emplacement physique.
- Demandez l'autorisation de partager les données d'instantané avec Google.
- Créez une demande d'assistance auprès de Google.
- Autorisez Google à accéder à votre instantané.
- Surveiller les opérations effectuées par Google sur l'instantané et en assurer la visibilité
Ouvrir une demande d'assistance concernant le matériel
Google a accès aux mêmes outils de dépannage pour diagnostiquer l'instantané du client. Ouvrez une demande d'assistance auprès du partenaire Hardware-as-a-Service (HWaaS) pour obtenir de l'aide concernant le matériel via le système de gestion des demandes partagé.
Les demandes d'assistance sont classées selon les niveaux de priorité suivants, avec les contrats de niveau de service (SLA) correspondants :
- Critique
- Élevée
- Moyenne
Partager les données client avec le partenaire HWaaS
Pour partager les données matérielles du système avec le partenaire matériel et activer le dépannage matériel, procédez comme suit :
- Demandez l'autorisation de partager des données instantanées avec un partenaire HWaaS.
- Assurez-vous de respecter les exigences de souveraineté : nationalité et localisation de l'agent de l'assistance.
- Accorder au partenaire HWaaS un accès sécurisé à l'instantané du matériel du client, y compris au numéro de série, à l'emplacement physique, aux journaux, aux métriques et aux fichiers de configuration.
- Informez les personnes à qui vous avez accordé l'accès.
- Appliquez l'expiration automatique des droits d'accès.
- Consignez toutes les activités et partagez-les avec toutes les parties concernées.
Informer Google des résultats du dépannage et corriger le calendrier
Signalez à Google la cause première du problème et proposez une solution progressive afin que Google puisse en informer le client final et le partenaire. Utilisez un système de tickets pour fournir des informations sur la tâche de correction requise et une estimation du délai d'exécution.
Coordonner l'accès au centre de données
Coordonnez la logistique et les autorisations pour accéder de manière sécurisée au centre de données et effectuez la réparation matérielle nécessaire.
Le partenaire HWaaS garantit la conformité aux exigences de souveraineté, telles que la nationalité de l'agent d'assistance. Elle a besoin des informations suivantes :
- Coordonnées du point de contact du centre de données et de son emplacement.
- L'emplacement exact du rack et du composant concernés dans le centre de données.
- Processus permettant d'obtenir l'autorisation d'accéder au centre de données à une heure convenue.
- Processus de planification d'une intervention sur site dans un centre de données.
Obtenir de l'aide concernant le matériel pour les SLO et les SLA
Google fournit une assistance par l'intermédiaire d'un fabricant d'équipement d'origine (OEM) partenaire. Le processus est le suivant :
- Google négocie l'assistance matérielle pour les objectifs de niveau de service (SLO) et les contrats de niveau de service (SLA) avec un partenaire HwaaS.
- Les SLO et les SLA varient en fonction de la gravité de l'incident, qui peut être critique, élevée ou moyenne.
- Le partenaire HWaaS met à jour la demande en indiquant l'état et le délai de résolution.
- Le partenaire HWaaS confirme la résolution du problème.
Augmenter la capacité
Pour répondre à une demande d'augmentation de capacité, utilisez la capacité supplémentaire intégrée si elle est disponible. Rendez-vous sur site et augmentez la capacité physique si aucune capacité supplémentaire n'est disponible dans les racks.
Planifier des révisions récurrentes avec Google
Organisez des examens périodiques avec le partenaire HaaS pour vérifier l'état actuel des déploiements et planifier les interventions prévues.
Voici les actions à effectuer lors des examens récurrents :
- Vérifiez les mises à jour planifiées requises pour le système d'exploitation, le matériel et le micrologiciel.
- Vérifiez l'état des déploiements existants.
- Planifiez de nouveaux déploiements.
Communiquer sur les opérations de maintenance et les mises à niveau planifiées
Communiquez avec les clients existants sur les plans de maintenance programmée à venir. Effectuez les actions suivantes avec eux :
- Sélectionnez les ressources à mettre à niveau.
- Indiquez pourquoi les mises à niveau fonctionneront dans leur état actuel.
- Déterminez qui effectuera les mises à niveau, et quand, où et comment.
- Planifiez l'impact et les temps d'arrêt potentiels.
Définir une maintenance planifiée
Planifiez une maintenance préventive régulière et assurez-vous que le système est à jour et fonctionne correctement. Le HWaaS vous informe de la fin de la maintenance. Il a besoin des processus suivants :
- Une procédure pour obtenir l'autorisation d'accéder au centre de données.
- Processus de planification d'une intervention sur site dans le centre de données.