Gérez et surveillez votre infrastructure Google Cloud

Last reviewed 2023-11-13 UTC

Après avoir déployé une application en production dans Google Cloud, vous devrez peut-être modifier l'infrastructure qu'elle utilise. Par exemple, vous devrez peut-être modifier les types de machines de vos VM ou la classe de stockage des buckets Cloud Storage. Cette partie du guide de fiabilité de l'infrastructure Google Cloud récapitule les conseils sur la gestion du changement que vous pouvez suivre pour réduire le risque de fiabilité des ressources d'infrastructure. Cette partie explique également comment surveiller la disponibilité de l'infrastructure Google Cloud.

Déployer progressivement les modifications de l'infrastructure

Lorsque vous devez modifier votre infrastructure Google Cloud, essayez autant que possible de déployer progressivement les modifications dans l'environnement de production. Par exemple, si vous devez modifier les types de machines des VM, déployez les modifications sur quelques VM dans une zone et surveillez les effets de ces modifications. Si vous rencontrez des problèmes, rétablissez rapidement l'état stable précédent de l'infrastructure. Diagnostiquez et résolvez les problèmes, puis redémarrez le processus de déploiement progressif. Après avoir vérifié que la charge de travail s'exécute comme prévu, déployez progressivement les modifications sur l'ensemble de votre infrastructure.

Pour en savoir plus sur les stratégies permettant de tester et de déployer des modifications de manière fiable sur votre infrastructure et vos applications Google Cloud, consultez la page Stratégies de déploiement et de test d'applications.

Contrôler les modifications apportées aux ressources globales

Lorsque vous modifiez des ressources globales telles que les réseaux VPC et les équilibreurs de charge globaux, veillez particulièrement à vérifier les modifications avant de les déployer en production.

Étant donné que les ressources globales sont résilientes aux pannes zonales et régionales, vous pouvez décider d'utiliser des instances uniques de certaines ressources globales dans votre architecture. Dans ces déploiements, les ressources globales peuvent devenir des points de défaillance uniques. Par exemple, si vous configurez par inadvertance une règle de transfert de votre équilibreur de charge global, l'interface peut cesser de recevoir ou de traiter des requêtes utilisateur. En réalité, l'application n'est pas disponible pour les utilisateurs dans ce cas, bien que le backend soit intact. Pour éviter de telles situations, appliquez un contrôle rigoureux des modifications apportées aux ressources globales. Par exemple, dans votre processus d'examen des modifications, vous pouvez classer toutes les modifications apportées aux ressources globales comme étant à haut risque que des évaluateurs supplémentaires doivent valider et approuver.

Surveiller la disponibilité de l'infrastructure Google Cloud

Vous pouvez surveiller l'état actuel des services Google Cloud dans toutes les régions à l'aide du tableau de bord Service Health de Google Cloud. Vous pouvez également afficher l'historique des défaillances d'infrastructure (appelées incidents) pour chaque service. La page de l'historique fournit des détails sur chaque incident, tels que sa durée, les zones et régions affectées, les services concernés et les solutions recommandées.

Vous pouvez également afficher les incidents pertinents pour votre projet à l'aide de Personalized Service Health. Service Health vous permet également de demander des informations sur les incidents à l'aide d'une API par projet ou par organisation, et de configurer des alertes.

Google fournit des mises à jour régulières sur l'état de chaque incident, y compris une estimation du délai pour la prochaine mise à jour. Vous pouvez obtenir des mises à jour par programmation des incidents en utilisant un flux RSS. Pour en savoir plus, consultez la page Incidents et tableau de bord Service Health de Google Cloud.