Le pilier de fiabilité du framework d'architecture fournit des principes et des recommandations pour vous aider à concevoir, déployer et gérer des charges de travail fiables dans Google Cloud.
Ce document est destiné aux architectes cloud, aux développeurs, aux ingénieurs de plate-forme, aux administrateurs et aux ingénieurs en fiabilité des sites.
La fiabilité est la capacité d'un système à exécuter de manière cohérente ses fonctions prévues dans les conditions définies et à assurer un service ininterrompu. Les bonnes pratiques en matière de fiabilité incluent la redondance, la conception tolérante aux pannes, la surveillance et les processus de récupération automatisés.
La résilience est une composante de la fiabilité. Elle correspond à la capacité du système à résister et à se rétablir après des défaillances ou des perturbations inattendues, tout en maintenant ses performances. Les fonctionnalités deGoogle Cloud , telles que les déploiements multirégionaux, les sauvegardes automatisées et les solutions de reprise après sinistre, peuvent vous aider à améliorer la résilience de votre système.
La fiabilité est importante pour votre stratégie cloud pour de nombreuses raisons, y compris les suivantes:
- Temps d'arrêt minimal: les temps d'arrêt peuvent entraîner une perte de revenus, une baisse de la productivité et une atteinte à la réputation. Les architectures résilientes peuvent aider à s'assurer que les systèmes peuvent continuer à fonctionner en cas de défaillance ou à les récupérer efficacement.
- Amélioration de l'expérience utilisateur: les utilisateurs s'attendent à des interactions fluides avec la technologie. Les systèmes résilients peuvent contribuer à maintenir des performances et une disponibilité cohérentes, et ils fournissent un service fiable même en cas de forte demande ou de problèmes inattendus.
- Intégrité des données: les défaillances peuvent entraîner la perte ou la corruption de données. Les systèmes résilients implémentent des mécanismes tels que les sauvegardes, la redondance et la réplication pour protéger les données et s'assurer qu'elles restent précises et accessibles.
- Continuité de l'activité: votre entreprise s'appuie sur la technologie pour ses opérations critiques. Les architectures résilientes peuvent contribuer à assurer la continuité après une défaillance catastrophique, ce qui permet aux fonctions métier de continuer sans interruption importante et favorise une reprise rapide.
- Conformité: de nombreux secteurs sont soumis à des exigences réglementaires en matière de disponibilité des systèmes et de protection des données. Les architectures résilientes peuvent vous aider à répondre à ces normes en veillant à ce que les systèmes restent opérationnels et sécurisés.
- Réduction des coûts à long terme: les architectures résilientes nécessitent un investissement initial, mais la résilience peut contribuer à réduire les coûts au fil du temps en évitant les temps d'arrêt coûteux, les corrections réactives et une utilisation plus efficace des ressources.
Esprit d'entreprise
Pour que vos systèmes soient fiables, vous avez besoin d'un plan et d'une stratégie établie. Cette stratégie doit inclure une formation et l'autorité de donner la priorité à la fiabilité par rapport aux autres initiatives.
Indiquez clairement que l'ensemble de l'organisation est responsable de la fiabilité, y compris le développement, la gestion des produits, les opérations, l'ingénierie de la plate-forme et l'ingénierie en fiabilité des sites (SRE). Même les groupes axés sur l'entreprise, comme le marketing et les ventes, peuvent avoir une incidence sur la fiabilité.
Chaque équipe doit comprendre les cibles de fiabilité et les risques de ses applications. Les équipes doivent être tenues responsables de ces exigences. Les conflits entre la fiabilité et le développement régulier des fonctionnalités produit doivent être hiérarchisés et être remontés en conséquence.
Planifiez et gérez la fiabilité de manière globale, pour toutes vos fonctions et équipes. Envisagez de configurer un centre d'excellence cloud (CCoE) qui inclut un pilier de fiabilité. Pour en savoir plus, consultez Optimiser le parcours cloud de votre organisation avec un centre d'excellence cloud.
Domaines d'action pour la fiabilité
Les activités que vous effectuez pour concevoir, déployer et gérer un système fiable peuvent être classées dans les domaines suivants. Chacun des principes et des recommandations de fiabilité de ce pilier est pertinent pour l'un de ces domaines d'intérêt.
- Établir le champ d'application: pour comprendre votre système, effectuez une analyse détaillée de son architecture. Vous devez comprendre les composants, leur fonctionnement et leur interaction, la façon dont les données et les actions circulent dans le système, et ce qui peut mal se passer. Identifiez les défaillances, goulots d'étranglement et risques potentiels, ce qui vous aidera à prendre des mesures pour atténuer ces problèmes.
- Observation: pour éviter les défaillances du système, implémentez une observation et une surveillance complètes et continues. Grâce à cette observation, vous pouvez comprendre les tendances et identifier les problèmes potentiels de manière proactive.
- Réponse: Pour réduire l'impact des défaillances, réagissez de manière appropriée et récupérez efficacement. Les réponses automatisées peuvent également contribuer à réduire l'impact des défaillances. Même avec une planification et des contrôles, des défaillances peuvent se produire.
- Apprentissage: pour éviter que les échecs ne se reproduisent, tirez des leçons de chaque expérience et prenez les mesures appropriées.
Principes de base
Les recommandations du pilier de fiabilité du framework d'architecture sont mappées sur les principes fondamentaux suivants:
- Définir la fiabilité en fonction des objectifs d'expérience utilisateur
- Définir des cibles réalistes pour la fiabilité
- Créer des systèmes disponibilité élevée grâce à des ressources redondantes
- Bénéficiez de l'évolutivité horizontale
- Détecter les défaillances potentielles à l'aide de l'observabilité
- Concevoir pour la dégradation élégante
- Effectuer des tests de reprise après échec
- Effectuer des tests de récupération en cas de perte de données
- Réaliser des analyses post-mortem approfondies
Contributeurs
Auteurs :
- Laura Hyatt | Architecte cloud d'entreprise
- Jose Andrade | Ingénieur client Enterprise Infrastructure
- Gino Pelliccia | Architecte principal
Autres contributeurs :
- Andrés-Leonardo Martínez-Ortiz | Responsable de programme technique
- Brian Kudzia | Ingénieur client pour l'infrastructure d'entreprise
- Kumar Dhanagopal Développeur de solutions multiproduits
- Daniel Lees | Architecte en sécurité cloud
- Radhika Kanakam | Senior Program Manager, Cloud GTM