Ce principe du pilier de fiabilité du framework d'architecture fournit des recommandations pour planifier, créer et gérer la redondance des ressources, ce qui peut vous aider à éviter les défaillances.
Ce principe s'applique à la zone de mise au point de la fiabilité en termes de champ d'application.
Présentation des principes
Une fois que vous avez défini le niveau de fiabilité dont vous avez besoin, vous devez concevoir vos systèmes pour éviter tout point de défaillance unique. Chaque composant critique du système doit être répliqué sur plusieurs machines, zones et régions. Par exemple, une base de données critique ne peut pas être située dans une seule région, et un serveur de métadonnées ne peut pas être déployé dans une seule zone ou région. Dans ces exemples, si la seule zone ou région est indisponible, le système est indisponible dans son intégralité.
Recommandations
Pour créer des systèmes redondants, tenez compte des recommandations des sous-sections suivantes.
Identifier les domaines de défaillance et répliquer les services
Mappez les domaines de défaillance de votre système, des VM individuelles aux régions, et concevez des services permettant la redondance entre les domaines de défaillance.
Pour garantir une haute disponibilité, distribuez et répliquez vos services et applications dans plusieurs zones et régions. Configurez le système pour le basculement automatique afin de vous assurer que les services et les applications restent disponibles en cas de panne de zone ou de région.
Pour obtenir des exemples d'architectures multizones et multirégionales, consultez Concevoir une infrastructure fiable pour vos charges de travail dans Google Cloud.
Détecter et résoudre rapidement les problèmes
Suivez en permanence l'état de vos domaines de défaillance pour détecter et résoudre rapidement les problèmes.
Vous pouvez surveiller l'état actuel des services Google Cloud dans toutes les régions à l'aide du tableau de bord Service Health de Google Cloud . Vous pouvez également afficher les incidents pertinents pour votre projet à l'aide de Personalized Service Health. Vous pouvez utiliser des équilibreurs de charge pour détecter l'état des ressources et acheminer automatiquement le trafic vers des backends opérationnels. Pour en savoir plus, consultez la page Présentation des vérifications d'état.
Tester les scénarios de basculement
Comme pour un exercice d'évacuation, simulez régulièrement des défaillances pour valider l'efficacité de vos stratégies de réplication et de basculement.
Pour en savoir plus, consultez les pages Simuler une défaillance de zone pour un MIG régional et Simuler une défaillance de zone dans des clusters régionaux GKE.