Surveillance dans un environnement de solution Bare Metal
La solution Bare Metal vous permet d'exécuter des charges de travail spécialisées dans les extensions régionales situées à proximité des centres de données Google Cloud. En mettant en œuvre un environnement de solution Bare Metal, vous pouvez réduire vos coûts globaux et les risques liés à la migration vers le cloud.
Présentation de la surveillance
L'une de nos priorités principales consiste à offrir la plus haute disponibilité pour l'environnement de la solution Bare Metal. C'est pourquoi Google Cloud et ses partenaires effectuent diverses activités de surveillance. Vous trouverez ci-dessous la liste des appareils d'infrastructure d'un environnement de solution Bare Metal que nous surveillons:
Infrastructure de calcul
- Matériel serveur
Infrastructure de stockage
- Périphériques de stockage
- Interrupteurs SAN
Infrastructure réseau
- Routeurs
- Commutateurs
- Infrastructure d'interconnexion
Google Cloud assure également le suivi de l'environnement des centres de données, y compris la température et l'humidité des salles de serveur.
Nous ne surveillons pas les systèmes d'exploitation, l'activité et les charges de travail au niveau de l'application, ni le trafic réseau acheminé vers et depuis les serveurs de la solution Bare Metal. Pour prévisualiser un utilitaire permettant de surveiller l'activité au niveau du système d'exploitation à l'aide de la suite Cloud Operations, contactez le service commercial Google Cloud.
Outils de surveillance
Notre partenaire utilise des solutions logicielles de surveillance commerciales conformes à la bibliothèque d'infrastructure technologique pour les technologies de l'information (ITIL, Information Technology Infrastructure Library). Google Cloud et notre partenaire utilisent également les services Google Cloud, tels que Pub/Sub, Cloud Functions et Cloud Monitoring, pour collecter et traiter ces données de surveillance. Nos systèmes internes de billetterie et de notifications fonctionnent directement avec ces services.
Données Monitoring
De manière générale, nos données de surveillance proviennent des sources suivantes:
- Pièges TLS
- Messages Syslog
- Messages provenant d'un logiciel de gestion dédié
- Interface de gestion de la plate-forme intelligente (IPMI)
Métriques courantes des appareils surveillés:
- Utilisation du processeur
- Interface réseau :
- Utilisation de la bande passante
- Abandons de paquets
- Erreurs
Alerting
Google Cloud a mené des activités de normalisation et de validation approfondies pour répondre aux exigences spécifiques de l'environnement de la solution Bare Metal. Si un événement certifié se situe en dehors de la plage normale, le système de surveillance déclenche une alerte.
Gestion des incidents
Google Cloud et son fournisseur d'infrastructure partenaire disposent d'une équipe dédiée 24h/24, 7j/7, qui gère les incidents. Une équipe pont est également disponible 24h/24, 7j/7 pour effectuer l'analyse initiale de chaque demande d'assistance et prendre les mesures nécessaires pour atténuer le problème. En fonction de la gravité de l'incident, nous déployons les équipes appropriées pour le résoudre.
Cloud Customer Care travaille avec l'équipe SysOps d'ingénierie de Google Cloud. Ils peuvent vous fournir des informations et coordonner les actions qui nécessitent votre aide. Au besoin, l'équipe d'ingénieurs Google Cloud collabore avec le fournisseur d'infrastructure partenaire ou les fournisseurs de matériel pour vous aider à résoudre votre problème.
Processus d'analyse des causes fondamentales
Après chaque incident de type P0 ou P1, Google Cloud effectue une analyse des causes fondamentales et suit un processus post-mortem. Nous documentons et identifions l'origine de l'incident ainsi que la façon dont il a été traité. Nous identifions également les lacunes et les mesures de suivi à prendre pour éviter que l'incident ne se reproduise.
Nous espérons que ce résumé de nos fonctionnalités de surveillance vous aidera à être certain de l'environnement de la solution Bare Metal lors de la migration de votre infrastructure et de vos applications vers le cloud.