Google Cloud Well-Architected Framework: excellence opérationnelle

Last reviewed 2025-02-14 UTC

Le pilier de l'excellence opérationnelle du Google Cloud framework Well-Architected fournit des recommandations pour exploiter efficacement les charges de travail sur Google Cloud. L'excellence opérationnelle dans le cloud implique de concevoir, d'implémenter et de gérer des solutions cloud qui offrent de la valeur, des performances, de la sécurité et de la fiabilité. Les recommandations de ce pilier vous aident à améliorer et à adapter en permanence vos charges de travail pour répondre aux besoins dynamiques et en constante évolution du cloud.

Le pilier "Excellence opérationnelle" est pertinent pour les audiences suivantes:

  • Gestionnaires et responsables: cadre permettant d'établir et de maintenir l'excellence opérationnelle dans le cloud, et de s'assurer que les investissements cloud apportent de la valeur et soutiennent les objectifs commerciaux.
  • Équipes d'exploitation cloud: conseils pour gérer les incidents et les problèmes, planifier la capacité, optimiser les performances et gérer le changement.
  • Ingénieurs en fiabilité des sites (SRE): bonnes pratiques qui vous aident à atteindre des niveaux élevés de fiabilité de service, y compris la surveillance, la gestion des incidents et l'automatisation.
  • Architectes et ingénieurs cloud: exigences opérationnelles et bonnes pratiques pour les phases de conception et d'implémentation, afin de s'assurer que les solutions sont conçues pour l'efficacité et l'évolutivité opérationnelles.
  • Équipes DevOps: conseils sur l'automatisation, les pipelines CI/CD et la gestion du changement pour vous aider à assurer une livraison de logiciels plus rapide et plus fiable.

Pour atteindre l'excellence opérationnelle, vous devez adopter l'automatisation, l'orchestration et les insights basés sur les données. L'automatisation permet d'éliminer les tâches laborieuses. Il simplifie également les tâches répétitives et crée des garde-fous. L'orchestration permet de coordonner des processus complexes. Les insights basés sur les données permettent une prise de décision basée sur des preuves. En suivant ces pratiques, vous pouvez optimiser les opérations cloud, réduire les coûts, améliorer la disponibilité des services et renforcer la sécurité.

L'excellence opérationnelle dans le cloud va au-delà de la maîtrise technique des opérations cloud. Elle implique un changement culturel qui encourage l'apprentissage et l'expérimentation continus. Les équipes doivent être habilitées à innover, à itérer et à adopter un état d'esprit axé sur la croissance. Une culture d'excellence opérationnelle favorise un environnement collaboratif dans lequel les individus sont encouragés à partager leurs idées, à remettre en question les hypothèses et à améliorer les processus.

Pour connaître les principes et recommandations d'excellence opérationnelle spécifiques aux charges de travail d'IA et de ML, consultez la section Perspective IA et ML: excellence opérationnelle du framework Well-Architected.

Principes de base

Les recommandations du pilier "Excellence opérationnelle" du framework Well-Architected Framework sont mappées sur les principes fondamentaux suivants:

  • Assurer la préparation opérationnelle et les performances à l'aide de CloudOps : assurez-vous que les solutions cloud répondent aux exigences opérationnelles et de performances en définissant des objectifs de niveau de service (SLO), et en effectuant une surveillance, des tests de performances et une planification de la capacité complètes.
  • Gérer les incidents et les problèmes : minimisez l'impact des incidents cloud et évitez leur récurrence grâce à une observabilité complète, à des procédures de réponse aux incidents claires, à des rétrospectives approfondies et à des mesures préventives.
  • Gérer et optimiser les ressources cloud : optimisez et gérez les ressources cloud à l'aide de stratégies telles que l'ajustement de la taille, l'ajustement automatique et l'utilisation d'outils de surveillance des coûts efficaces.
  • Automatiser et gérer le changement : automatisez les processus, simplifiez la gestion du changement et allégez la charge de travail manuel.
  • Améliorez et innovez en continu : concentrez-vous sur les améliorations continues et l'introduction de nouvelles solutions pour rester compétitif.

Contributeurs

Auteurs :

Autres contributeurs :

Assurer la préparation opérationnelle et les performances à l'aide de CloudOps

Ce principe du pilier d'excellence opérationnelle du Google Cloud framework Well-Architected vous aide à assurer la préparation opérationnelle et les performances de vos charges de travail cloud. Elle met l'accent sur l'établissement d'attentes et d'engagements clairs en termes de performances de service, l'implémentation d'une surveillance et d'une alerte robustes, la réalisation de tests de performances et la planification proactive des besoins en capacité.

Présentation des principes

Chaque organisation peut interpréter la préparation opérationnelle différemment. La préparation opérationnelle est la façon dont votre organisation se prépare à exploiter des charges de travail sur Google Cloud. La préparation de l'exploitation d'une charge de travail cloud complexe et multicouche nécessite une planification minutieuse pour le lancement et les opérations de jour 2. Ces opérations sont souvent appelées CloudOps.

Axes de préparation opérationnelle

La préparation opérationnelle se compose de quatre domaines d'activité. Chaque domaine d'action se compose d'un ensemble d'activités et de composants nécessaires à la préparation de l'exécution d'une application ou d'un environnement complexe dans Google Cloud. Le tableau suivant liste les composants et les activités de chaque axe d'attention:

Domaine d'application de la préparation opérationnelle Activités et composants
Main d'œuvre
  • Définir des rôles et des responsabilités clairs pour les équipes qui gèrent et exploitent les ressources cloud.
  • S'assurer que les membres de l'équipe disposent des compétences appropriées.
  • Élaborer un programme de formation
  • Établir une structure d'équipe claire
  • Recruter les talents nécessaires
Processus
  • Observabilité.
  • Gérer les interruptions de service
  • Livraison dans le cloud.
  • Opérations cloud de base.
Outils Outils requis pour prendre en charge les processus CloudOps.
Gouvernance
  • Niveaux de service et rapports
  • Finances dans le cloud
  • Modèle d'exploitation cloud.
  • Comités d'architecture et de gouvernance
  • Architecture cloud et conformité

Recommandations

Pour garantir la préparation opérationnelle et les performances à l'aide de CloudOps, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs des axes d'attention de la préparation opérationnelle.

Définir des SLO et des SLA

L'équipe chargée des opérations cloud a pour principale responsabilité de définir des objectifs de niveau de service (SLO) et des contrats de niveau de service (SLA) pour toutes les charges de travail critiques. Cette recommandation est pertinente pour le domaine d'intérêt de la gouvernance "Préparation opérationnelle".

Les SLO doivent être spécifiques, mesurables, réalisables, pertinents et limités dans le temps (SMART), et ils doivent refléter le niveau de service et de performances souhaité.

  • Précise: elle indique clairement le niveau de service et de performances requis.
  • Mesurables: quantifiables et traçables.
  • Atteignable: atteignable dans les limites des capacités et des ressources de votre organisation.
  • Pertinent: en adéquation avec les objectifs et les priorités de l'entreprise.
  • Limité dans le temps: la mesure et l'évaluation sont effectuées dans un délai défini.

Par exemple, un SLO pour une application Web peut être "Disponibilité de 99,9 %" ou "Temps de réponse moyen inférieur à 200 ms". Ces SLO définissent clairement le niveau de service et de performances requis pour l'application Web. Ils peuvent être mesurés et suivis au fil du temps.

Les SLA décrivent les engagements envers les clients concernant la disponibilité, les performances et l'assistance des services, y compris les pénalités ou les mesures correctives en cas de non-respect. Les SLA doivent inclure des informations spécifiques sur les services fournis, le niveau de service attendu, les responsabilités du fournisseur de services et du client, ainsi que toute pénalité ou réparation en cas de non-respect. Les SLA servent de contrat entre les deux parties, en veillant à ce qu'elles aient une compréhension claire des attentes et des obligations associées au service cloud.

Google Cloud fournit des outils tels que la surveillance dans le cloud et des indicateurs de niveau de service (SLI) pour vous aider à définir et à suivre les SLO. Cloud Monitoring offre des fonctionnalités de surveillance et d'observabilité complètes qui permettent à votre organisation de collecter et d'analyser les métriques liées à la disponibilité, aux performances et à la latence des applications et services cloud. Les SLI sont des métriques spécifiques que vous pouvez utiliser pour mesurer et suivre les SLO au fil du temps. Grâce à ces outils, vous pouvez surveiller et gérer efficacement les services cloud, et vous assurer qu'ils respectent les SLO et les SLA.

Définir et communiquer clairement les SLO et les SLA pour tous vos services cloud critiques permet de garantir la fiabilité et les performances de vos applications et services déployés.

Implémenter une observabilité complète

Pour obtenir une visibilité en temps réel sur l'état et les performances de votre environnement cloud, nous vous recommandons d'utiliser une combinaison d'outils Google Cloud Observability et de solutions tierces. Cette recommandation s'applique aux domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

Implémenter une combinaison de solutions d'observabilité vous fournit une stratégie d'observabilité complète qui couvre différents aspects de votre infrastructure cloud et de vos applications. Google Cloud Observability est une plate-forme unifiée permettant de collecter, d'analyser et de visualiser des métriques, des journaux et des traces provenant de divers services, applications et sources externes.Google Cloud Cloud Monitoring vous permet d'obtenir des insights sur l'utilisation des ressources, les caractéristiques de performances et l'état général de vos ressources.

Pour assurer une surveillance complète, surveillez les métriques importantes qui correspondent aux indicateurs de santé du système, tels que l'utilisation du processeur, l'utilisation de la mémoire, le trafic réseau, les E/S disque et les temps de réponse des applications. Vous devez également tenir compte des métriques spécifiques à votre entreprise. En suivant ces métriques, vous pouvez identifier les goulots d'étranglement potentiels, les problèmes de performances et les contraintes de ressources. Vous pouvez également configurer des alertes pour informer de manière proactive les équipes concernées des problèmes ou anomalies potentiels.

Pour améliorer davantage vos fonctionnalités de surveillance, vous pouvez intégrer des solutions tierces à Google Cloud Observability. Ces solutions peuvent fournir des fonctionnalités supplémentaires, telles que des analyses avancées, une détection d'anomalies basée sur le machine learning et des fonctionnalités de gestion des incidents. Cette combinaison d'outils d'observabilité Google Cloud et de solutions tierces vous permet de créer un écosystème de surveillance robuste et personnalisable, adapté à vos besoins spécifiques. En utilisant cette approche combinée, vous pouvez identifier et résoudre de manière proactive les problèmes, optimiser l'utilisation des ressources et garantir la fiabilité et la disponibilité globales de vos applications et services cloud.

Implémenter des tests de performances et de charge

Effectuer des tests de performances réguliers vous permet de vous assurer que vos applications et votre infrastructure cloud peuvent gérer les pics de charge et maintenir des performances optimales. Les tests de charge simulent des modèles de trafic réalistes. Les tests de stress poussent le système à ses limites pour identifier les goulots d'étranglement et les limites de performances potentiels. Cette recommandation s'applique aux domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

Des outils tels que l'équilibrage de charge dans le cloud et les services de test de charge peuvent vous aider à simuler des modèles de trafic réels et à tester vos applications en conditions extrêmes. Ces outils fournissent des insights précieux sur le comportement de votre système dans différentes conditions de charge et peuvent vous aider à identifier les domaines nécessitant une optimisation.

En fonction des résultats des tests de performances, vous pouvez prendre des décisions pour optimiser votre infrastructure cloud et vos applications afin d'obtenir des performances et une évolutivité optimales. Cette optimisation peut impliquer d'ajuster l'allocation des ressources, d'ajuster les configurations ou d'implémenter des mécanismes de mise en cache.

Par exemple, si vous constatez que votre application ralentit pendant les périodes de trafic élevé, vous devrez peut-être augmenter le nombre de machines virtuelles ou de conteneurs alloués à l'application. Vous devrez peut-être également ajuster la configuration de votre serveur Web ou de votre base de données pour améliorer les performances.

En effectuant régulièrement des tests de performances et en implémentant les optimisations nécessaires, vous pouvez vous assurer que vos applications et votre infrastructure cloud fonctionnent toujours à des performances optimales, et offrir une expérience fluide et réactive à vos utilisateurs. Cela peut vous aider à maintenir un avantage concurrentiel et à gagner la confiance de vos clients.

Planifier et gérer la capacité

Planifier de manière proactive les besoins futurs en capacité, qu'ils soient organiques ou inorganiques, vous permet de garantir le bon fonctionnement et l'évolutivité de vos systèmes cloud. Cette recommandation s'applique aux processus axés sur la préparation opérationnelle.

La planification de la capacité future implique de comprendre et de gérer les quotas pour diverses ressources, telles que les instances de calcul, le stockage et les requêtes API. En analysant les tendances d'utilisation historiques, les projections de croissance et les exigences métier, vous pouvez anticiper avec précision les futurs besoins en capacité. Vous pouvez utiliser des outils tels que Cloud Monitoring et BigQuery pour collecter et analyser les données d'utilisation, identifier les tendances et prévoir la demande future.

L'historique des modèles d'utilisation fournit des informations précieuses sur l'utilisation des ressources au fil du temps. En examinant des métriques telles que l'utilisation du processeur, l'utilisation de la mémoire et le trafic réseau, vous pouvez identifier les périodes de forte demande et les goulots d'étranglement potentiels. Vous pouvez également estimer les besoins futurs en capacité en effectuant des projections de croissance en fonction de facteurs tels que la croissance de la base d'utilisateurs, les nouveaux produits et fonctionnalités, et les campagnes marketing. Lorsque vous évaluez les besoins en capacité, vous devez également tenir compte des exigences métier telles que les contrats de niveau de service et les cibles de performances.

Lorsque vous déterminez la taille des ressources pour une charge de travail, tenez compte des facteurs pouvant affecter l'utilisation des ressources. Les variations saisonnières, comme les périodes de shopping pendant les fêtes ou les ventes de fin de trimestre, peuvent entraîner des pics temporaires de la demande. Les événements planifiés, comme les lancements de produits ou les campagnes marketing, peuvent également augmenter considérablement le trafic. Pour vous assurer que votre système principal et de reprise après sinistre (DR) peut gérer les pics de demande inattendus, planifiez une capacité qui peut prendre en charge le basculement en cas de perturbation, comme les catastrophes naturelles et les cyberattaques.

L'autoscaling est une stratégie importante pour ajuster dynamiquement vos ressources cloud en fonction des fluctuations de la charge de travail. Grâce aux règles d'autoscaling, vous pouvez ajuster automatiquement les instances de calcul, le stockage et d'autres ressources en fonction de l'évolution de la demande. Cela garantit des performances optimales pendant les périodes de pointe, tout en minimisant les coûts lorsque l'utilisation des ressources est faible. Les algorithmes d'autoscaling utilisent des métriques telles que l'utilisation du processeur, l'utilisation de la mémoire et la profondeur de la file d'attente pour déterminer quand faire évoluer les ressources.

Surveiller et optimiser en continu

Pour gérer et optimiser les charges de travail cloud, vous devez mettre en place un processus de surveillance et d'analyse continue des métriques de performances. Cette recommandation s'applique aux domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

Pour établir un processus de surveillance et d'analyse continue, vous devez suivre, collecter et évaluer les données liées à différents aspects de votre environnement cloud. Grâce à ces données, vous pouvez identifier de manière proactive les axes d'amélioration, optimiser l'utilisation des ressources et vous assurer que votre infrastructure cloud répond de manière cohérente ou dépasse vos attentes en termes de performances.

Un aspect important de la surveillance des performances consiste à examiner régulièrement les journaux et les traces. Les journaux fournissent des informations précieuses sur les événements, les erreurs et les avertissements système. Les traces fournissent des informations détaillées sur le flux de requêtes dans votre application. En analysant les journaux et les traces, vous pouvez identifier les problèmes potentiels, en déterminer l'origine et mieux comprendre le comportement de vos applications dans différentes conditions. Des métriques telles que le temps aller-retour entre les services peuvent vous aider à identifier et à comprendre les goulots d'étranglement de vos charges de travail.

De plus, vous pouvez utiliser des techniques de réglage des performances pour améliorer considérablement les temps de réponse des applications et l'efficacité globale. Voici quelques exemples de techniques que vous pouvez utiliser:

  • Mise en cache: stockez les données fréquemment consultées en mémoire pour réduire le besoin d'effectuer des requêtes de base de données ou des appels d'API répétés.
  • Optimisation de la base de données: utilisez des techniques telles que l'indexation et l'optimisation des requêtes pour améliorer les performances des opérations de base de données.
  • Profilage du code: identifiez les parties de votre code qui consomment des ressources excessives ou qui posent des problèmes de performances.

En appliquant ces techniques, vous pouvez optimiser vos applications et vous assurer qu'elles s'exécutent efficacement dans le cloud.

Gérer les incidents et les problèmes

Ce principe du pilier de l'excellence opérationnelle du Google Cloud framework Well-Architected fournit des recommandations pour vous aider à gérer les incidents et les problèmes liés à vos charges de travail cloud. Elle implique d'implémenter une surveillance et une observabilité complètes, d'établir des procédures de réponse aux incidents claires, de mener une analyse approfondie des causes et d'implémenter des mesures préventives. De nombreux sujets abordés dans ce principe sont traités en détail dans le pilier Fiabilité.

Présentation des principes

La gestion des incidents et la gestion des problèmes sont des composants importants d'un environnement d'exploitation fonctionnel. La façon dont vous répondez, catégorisez et résolvez les incidents de différentes gravités peut avoir un impact significatif sur vos opérations. Vous devez également effectuer des ajustements de manière proactive et continue pour optimiser la fiabilité et les performances. Un processus efficace de gestion des incidents et des problèmes repose sur les éléments fondamentaux suivants:

  • Surveillance continue: identifiez et résolvez rapidement les problèmes.
  • Automatisation: simplifiez les tâches et gagnez en efficacité.
  • Orchestration: coordonnez et gérez efficacement les ressources cloud.
  • Insights basés sur les données: optimisez les opérations cloud et prenez des décisions éclairées.

Ces éléments vous aident à créer un environnement cloud résilient capable de gérer un large éventail de défis et de perturbations. Ces éléments peuvent également contribuer à réduire le risque d'incidents et de temps d'arrêt coûteux, et vous aider à accroître l'agilité et le succès de votre entreprise. Ces éléments fondamentaux sont répartis sur les quatre domaines d'attention de la préparation opérationnelle : main-d'œuvre, processus, outils et gouvernance.

Recommandations

Pour gérer efficacement les incidents et les problèmes, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs des axes d'attention de la préparation opérationnelle.

Définir des procédures de réponse aux incidents claires

Des rôles et des responsabilités clairs sont essentiels pour garantir une réponse efficace et coordonnée aux incidents. De plus, des protocoles de communication et des voies d'escalade clairs permettent de s'assurer que les informations sont partagées rapidement et efficacement lors d'un incident. Cette recommandation s'applique aux axes de préparation opérationnelle suivants : main-d'œuvre, processus et outils.

Pour établir des procédures de gestion des incidents, vous devez définir les rôles et les attentes de chaque membre de l'équipe, tels que les responsables d'incidents, les enquêteurs, les communicateurs et les experts techniques. L'établissement de canaux de communication et d'escalade comprend l'identification des contacts importants, la configuration des canaux de communication et la définition du processus d'escalade des incidents vers des niveaux de gestion supérieurs si nécessaire. Des formations et une préparation régulières permettent de s'assurer que les équipes disposent des connaissances et des compétences nécessaires pour répondre efficacement aux incidents.

En documentant les procédures de gestion des incidents dans un runbook ou un playbook, vous pouvez fournir un guide de référence standardisé que les équipes peuvent suivre en cas d'incident. Le runbook doit décrire les étapes à suivre à chaque étape du processus de gestion des incidents, y compris la communication, le tri, l'investigation et la résolution. Il doit également inclure des informations sur les outils et les ressources pertinents, ainsi que les coordonnées du personnel important. Vous devez examiner et mettre à jour régulièrement le runbook pour vous assurer qu'il reste à jour et efficace.

Centraliser la gestion des incidents

Pour un suivi et une gestion efficaces tout au long du cycle de vie des incidents, envisagez d'utiliser un système de gestion des incidents centralisé. Cette recommandation s'applique aux axes de préparation opérationnelle suivants : processus et outils.

Un système de gestion des incidents centralisé présente les avantages suivants:

  • Meilleure visibilité: en regroupant toutes les données liées aux incidents au même endroit, vous évitez aux équipes de rechercher du contexte dans différents canaux ou systèmes. Cette approche permet de gagner du temps et de réduire la confusion, et offre aux personnes concernées une vue complète de l'incident, y compris de son état, de son impact et de sa progression.
  • Meilleure coordination et collaboration: un système centralisé fournit une plate-forme unifiée pour la communication et la gestion des tâches. Il favorise une collaboration fluide entre les différents services et fonctions impliqués dans la gestion des incidents. Cette approche garantit que tout le monde a accès à des informations à jour et réduit le risque de mauvaise communication et de manque de cohésion.
  • Responsabilité et appropriation renforcées: un système de gestion des incidents centralisé permet à votre organisation d'attribuer des tâches à des personnes ou à des équipes spécifiques, et garantit que les responsabilités sont clairement définies et suivies. Cette approche favorise la responsabilisation et encourage la résolution proactive des problèmes, car les membres de l'équipe peuvent facilement suivre leur progression et leurs contributions.

Un système de gestion des incidents centralisé doit offrir des fonctionnalités robustes pour le suivi des incidents, l'attribution des tâches et la gestion de la communication. Ces fonctionnalités vous permettent de personnaliser les workflows, de définir des priorités et de vous intégrer à d'autres systèmes, tels que des outils de surveillance et des systèmes de billetterie.

En implémentant un système de gestion des incidents centralisé, vous pouvez optimiser les processus de gestion des incidents de votre organisation, améliorer la collaboration et améliorer la visibilité. Cela permet de résoudre les incidents plus rapidement, de réduire les temps d'arrêt et d'améliorer la satisfaction des clients. Il contribue également à développer une culture d'amélioration continue, car vous pouvez tirer des enseignements des incidents passés et identifier les axes d'amélioration.

Effectuer des examens approfondis après un incident

Après un incident, vous devez effectuer un examen post-incident (PIR) détaillé, également appelé analyse post-mortem, pour identifier la cause racine, les facteurs contribuant et les enseignements tirés. Cette analyse approfondie vous aidera à éviter de tels incidents à l'avenir. Cette recommandation s'applique aux domaines d'attention de la préparation opérationnelle suivants : processus et gouvernance.

Le processus d'investigation des incidents de sécurité doit impliquer une équipe multidisciplinaire disposant d'une expertise dans divers aspects de l'incident. L'équipe doit rassembler toutes les informations pertinentes par le biais d'entretiens, d'examens de documentation et d'inspections sur site. Une chronologie des événements doit être créée pour établir la séquence d'actions qui ont conduit à l'incident.

Une fois que l'équipe a rassemblé les informations requises, elle doit effectuer une analyse des causes pour déterminer les facteurs ayant conduit à l'incident. Cette analyse doit identifier à la fois la cause immédiate et les problèmes systémiques qui ont contribué à l'incident.

En plus d'identifier la cause du problème, l'équipe PIR doit identifier tous les autres facteurs ayant pu contribuer à l'incident. Ces facteurs peuvent inclure une erreur humaine, une défaillance de l'équipement ou des facteurs organisationnels tels que des problèmes de communication et un manque de formation.

Le rapport PIR doit documenter les résultats de l'enquête, y compris la chronologie des événements, l'analyse des causes et les actions recommandées. Ce rapport est une ressource précieuse pour mettre en œuvre des mesures correctives et éviter que le problème ne se reproduise. Le rapport doit être partagé avec toutes les personnes concernées et utilisé pour développer des formations et des procédures de sécurité.

Pour que le processus d'évaluation des risques et des impacts soit efficace, votre organisation doit promouvoir une culture d'absence de blâme qui se concentre sur l'apprentissage et l'amélioration plutôt que sur la désignation de coupables. Cette culture encourage les individus à signaler les incidents sans craindre de représailles, et vous permet de résoudre les problèmes systémiques et d'apporter des améliorations significatives.

En effectuant des PIR approfondies et en implémentant des mesures correctives en fonction des résultats, vous pouvez réduire considérablement le risque d'incidents similaires à l'avenir. Cette approche proactive de l'investigation et de la prévention des incidents permet de créer un environnement de travail plus sûr et plus efficace pour toutes les personnes impliquées.

Gérer une base de connaissances

Une base de connaissances sur les problèmes connus, les solutions et les guides de dépannage est essentielle pour la gestion et la résolution des incidents. Les membres de l'équipe peuvent utiliser la base de connaissances pour identifier et résoudre rapidement les problèmes courants. L'implémentation d'une base de connaissances permet de réduire le besoin d'escalade et d'améliorer l'efficacité globale. Cette recommandation s'applique aux axes de préparation opérationnelle suivants : main-d'œuvre et processus.

L'un des principaux avantages d'une base de connaissances est qu'elle permet aux équipes d'apprendre des expériences passées et d'éviter de répéter les erreurs. En identifiant et en partageant les solutions aux problèmes connus, les équipes peuvent acquérir une compréhension collective des méthodes permettant de résoudre les problèmes courants et des bonnes pratiques de gestion des incidents. L'utilisation d'une base de connaissances permet de gagner du temps et de l'effort, et aide à standardiser les processus et à assurer la cohérence de la résolution des incidents.

En plus d'aider à améliorer les délais de résolution des incidents, une base de connaissances favorise le partage des connaissances et la collaboration entre les équipes. Grâce à un référentiel central d'informations, les équipes peuvent facilement accéder à la base de connaissances et y contribuer, ce qui favorise une culture d'apprentissage et d'amélioration continue. Cette culture encourage les équipes à partager leur expertise et leurs expériences, ce qui permet de créer une base de connaissances plus complète et plus utile.

Pour créer et gérer efficacement une base de connaissances, utilisez les outils et les technologies appropriés. Les plates-formes de collaboration comme Google Workspace sont particulièrement adaptées à cet effet, car elles vous permettent de créer, de modifier et de partager facilement des documents en collaboration. Ces outils sont également compatibles avec le contrôle des versions et le suivi des modifications, ce qui garantit que la base de connaissances reste à jour et précise.

Assurez-vous que la base de connaissances est facilement accessible à toutes les équipes concernées. Pour ce faire, vous pouvez intégrer la base de connaissances aux systèmes de gestion des incidents existants ou fournir un portail ou un site intranet dédié. Une base de connaissances facilement accessible permet aux équipes d'accéder rapidement aux informations dont elles ont besoin pour résoudre les incidents efficacement. Cette disponibilité permet de réduire les temps d'arrêt et de minimiser l'impact sur les opérations commerciales.

Examinez et mettez à jour régulièrement la base de connaissances pour vous assurer qu'elle reste pertinente et utile. Surveillez les rapports d'incidents, identifiez les problèmes et tendances courants, et incorporez de nouvelles solutions et guides de dépannage à la base de connaissances. Une base de connaissances à jour aide vos équipes à résoudre les incidents plus rapidement et plus efficacement.

Automatiser la réponse aux incidents

L'automatisation permet de simplifier vos processus de réponse et de résolution des incidents. Il vous permet de gérer les brèches de sécurité et les défaillances du système de manière rapide et efficace. En utilisant Google Cloud des produits tels que les fonctions Cloud Run ou Cloud Run, vous pouvez automatiser diverses tâches qui sont généralement manuelles et chronophages. Cette recommandation s'applique aux domaines d'intérêt de la préparation opérationnelle suivants : processus et outils.

La réponse aux incidents automatisée offre les avantages suivants:

  • Réduction des délais de détection et de résolution des incidents: les outils automatisés peuvent surveiller en continu les systèmes et les applications, détecter en temps réel les activités suspectes ou anormales, et avertir les personnes concernées ou répondre sans intervention. Cette automatisation vous permet d'identifier les menaces ou les problèmes potentiels avant qu'ils ne se transforment en incidents majeurs. Lorsqu'un incident est détecté, des outils automatisés peuvent déclencher des actions de correction prédéfinies, telles que l'isolement des systèmes concernés, la mise en quarantaine des fichiers malveillants ou le rétablissement des modifications pour restaurer le système dans un état correct connu.
  • Allègement de la charge pour les équipes de sécurité et d'exploitation: la gestion automatisée des incidents permet aux équipes de sécurité et d'exploitation de se concentrer sur des tâches plus stratégiques. En automatisant les tâches de routine et répétitives, telles que la collecte d'informations de diagnostic ou le déclenchement d'alertes, votre organisation peut libérer du personnel pour qu'il puisse gérer les incidents plus complexes et critiques. Cette automatisation peut améliorer l'efficacité et l'efficacité globales de la gestion des incidents.
  • Amélioration de la cohérence et de la précision du processus de correction : les outils automatisés peuvent garantir que les actions de correction sont appliquées de manière uniforme à tous les systèmes concernés, ce qui réduit le risque d'erreur humaine ou d'incohérence. Cette standardisation du processus de résolution permet de minimiser l'impact des incidents sur les utilisateurs et l'entreprise.

Gérer et optimiser les ressources cloud

Ce principe du pilier "Excellence opérationnelle" du Google Cloud framework Well-Architected fournit des recommandations pour vous aider à gérer et optimiser les ressources utilisées par vos charges de travail cloud. Il s'agit d'ajuster les ressources en fonction de l'utilisation et de la demande réelles, d'utiliser l'autoscaling pour l'allocation dynamique des ressources, d'implémenter des stratégies d'optimisation des coûts et d'examiner régulièrement l'utilisation et les coûts des ressources. De nombreux sujets abordés dans ce principe sont traités en détail dans le pilier Optimisation des coûts.

Présentation des principes

La gestion et l'optimisation des ressources cloud jouent un rôle essentiel dans l'optimisation des dépenses cloud, de l'utilisation des ressources et de l'efficacité de l'infrastructure. Il comprend diverses stratégies et bonnes pratiques visant à maximiser la valeur et le retour sur investissement de vos dépenses cloud.

L'optimisation de ce pilier ne se limite pas à la réduction des coûts. Elle met l'accent sur les objectifs suivants:

  • Efficacité: utiliser l'automatisation et l'analyse de données pour optimiser les performances et réaliser des économies.
  • Performances : évolutivité fluide des ressources pour répondre aux demandes fluctuantes et obtenir des résultats optimaux.
  • Évolutivité: adaptation de l'infrastructure et des processus pour répondre à une croissance rapide et à des charges de travail variées.

En vous concentrant sur ces objectifs, vous trouvez un équilibre entre les coûts et les fonctionnalités. Vous pouvez prendre des décisions éclairées concernant le provisionnement, l'ajustement et la migration des ressources. De plus, vous obtenez des insights précieux sur les tendances de consommation des ressources, ce qui vous permet d'identifier et de résoudre de manière proactive les problèmes potentiels avant qu'ils ne s'aggravent.

Recommandations

Pour gérer et optimiser les ressources, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne une ou plusieurs des zones d'attention de la préparation opérationnelle.

Dimensionner les ressources

La surveillance continue de l'utilisation des ressources et l'ajustement de l'allocation des ressources en fonction de la demande réelle sont essentiels pour une gestion efficace des ressources cloud. Le surprovisionnement de ressources peut entraîner des coûts inutiles, tandis que le sous-provisionnement peut entraîner des goulots d'étranglement affectant les performances de l'application et l'expérience utilisateur. Pour obtenir un équilibre optimal, vous devez adopter une approche proactive pour dimensionner correctement les ressources cloud. Cette recommandation s'applique au domaine d'intérêt de la gouvernance "Préparation opérationnelle".

Cloud Monitoring et Recommender peuvent vous aider à identifier les opportunités d'ajustement. Cloud Monitoring offre une visibilité en temps réel sur les métriques d'utilisation des ressources. Cette visibilité vous permet de suivre les tendances d'utilisation des ressources et d'identifier les inefficacités potentielles. L'outil de recommandation analyse les données d'utilisation des ressources pour formuler des recommandations intelligentes visant à optimiser l'allocation des ressources. Grâce à ces outils, vous pouvez obtenir des insights sur l'utilisation des ressources et prendre des décisions éclairées sur leur dimensionnement.

En plus de Cloud Monitoring et du Recommender, envisagez d'utiliser des métriques personnalisées pour déclencher des actions d'ajustement automatique. Les métriques personnalisées vous permettent de suivre des métriques d'utilisation des ressources spécifiques qui sont pertinentes pour vos applications et vos charges de travail. Vous pouvez également configurer des alertes pour avertir les administrateurs lorsque des seuils prédéfinis sont atteints. Les administrateurs peuvent ensuite prendre les mesures nécessaires pour ajuster l'allocation des ressources. Cette approche proactive garantit que les ressources sont mises à l'échelle en temps opportun, ce qui permet d'optimiser les coûts cloud et d'éviter les problèmes de performances.

Utiliser l'autoscaling

L'autoscaling du calcul et d'autres ressources permet d'assurer des performances et une rentabilité optimales de vos applications cloud. L'autoscaling vous permet d'ajuster dynamiquement la capacité de vos ressources en fonction des fluctuations de la charge de travail. Vous disposez ainsi des ressources dont vous avez besoin au moment où vous en avez besoin, et vous évitez le surprovisionnement et les coûts inutiles. Cette recommandation est pertinente pour les processus axés sur la préparation opérationnelle.

Pour répondre aux besoins divers des différentes applications et charges de travail,Google Cloud propose différentes options d'autoscaling, y compris les suivantes:

  • Les groupes d'instances gérés (MIG, Managed Instance Group) Compute Engine sont des groupes de VM gérés et mis à l'échelle en tant qu'entité unique. Avec les MIG, vous pouvez définir des règles d'autoscaling qui spécifient le nombre minimal et maximal de VM à conserver dans le groupe, ainsi que les conditions qui déclenchent l'autoscaling. Par exemple, vous pouvez configurer une stratégie pour ajouter des VM dans un MIG lorsque l'utilisation du processeur atteint un certain seuil et pour supprimer des VM lorsque l'utilisation passe sous un autre seuil.
  • L'autoscaling de Google Kubernetes Engine (GKE) ajuste dynamiquement les ressources de votre cluster en fonction des besoins de votre application. Il propose les outils suivants:

    • L'autoscaler de cluster ajoute ou supprime des nœuds en fonction des demandes de ressources des pods.
    • L'autoscaler horizontal des pods modifie le nombre de pods dupliqués en fonction du processeur, de la mémoire ou de métriques personnalisées.
    • L'autoscaler de pods vertical affine les demandes et les limites de ressources des pods en fonction des tendances d'utilisation.
    • Le provisionnement automatique des nœuds crée automatiquement des pools de nœuds optimisés pour vos charges de travail.

    Ces outils fonctionnent ensemble pour optimiser l'utilisation des ressources, garantir les performances des applications et simplifier la gestion des clusters.

  • Cloud Run est une plate-forme sans serveur qui vous permet d'exécuter du code sans avoir à gérer d'infrastructure. Cloud Run propose une fonctionnalité d'autoscaling intégrée qui ajuste automatiquement le nombre d'instances en fonction du trafic entrant. Lorsque le volume de trafic augmente, Cloud Run augmente le nombre d'instances pour gérer la charge. Lorsque le trafic diminue, Cloud Run réduit le nombre d'instances pour réduire les coûts.

En utilisant ces options d'autoscaling, vous pouvez vous assurer que vos applications cloud disposent des ressources dont elles ont besoin pour gérer des charges de travail variables, tout en évitant le surprovisionnement et les coûts inutiles. L'utilisation de l'autoscaling peut améliorer les performances, réduire les coûts et optimiser l'utilisation des ressources cloud.

Exploiter les stratégies d'optimisation des coûts

Optimiser vos dépenses cloud vous aide à gérer efficacement les budgets IT de votre organisation. Cette recommandation est pertinente pour le domaine d'intérêt de la gouvernance "Préparation opérationnelle".

Google Cloud propose plusieurs outils et techniques pour vous aider à optimiser vos coûts cloud. En utilisant ces outils et techniques, vous pouvez tirer le meilleur parti de vos dépenses cloud. Ces outils et techniques vous aident à identifier les domaines dans lesquels les coûts peuvent être réduits, par exemple en identifiant les ressources sous-utilisées ou en recommandant des types d'instances plus rentables. Google Cloud Voici quelques options pour optimiser les coûts cloud:

Les modèles de tarification peuvent changer au fil du temps, et de nouvelles fonctionnalités peuvent être introduites pour offrir de meilleures performances ou des coûts inférieurs par rapport aux options existantes. Par conséquent, vous devez examiner régulièrement les modèles de tarification et envisager d'autres fonctionnalités. En vous tenant informé des derniers modèles de tarification et des dernières fonctionnalités, vous pouvez prendre des décisions éclairées sur votre architecture cloud afin de réduire les coûts.

Les outils de gestion des coûts deGoogle Cloud, tels que les budgets et les alertes, fournissent des insights précieux sur les dépenses cloud. Les budgets et les alertes permettent aux utilisateurs de définir des budgets et de recevoir des alertes lorsqu'ils sont dépassés. Ces outils aident les utilisateurs à suivre leurs dépenses dans le cloud et à identifier les domaines où les coûts peuvent être réduits.

Suivre l'utilisation et les coûts des ressources

Vous pouvez utiliser le taggage et le libellé pour suivre l'utilisation et les coûts des ressources. En attribuant des tags et des libellés à vos ressources cloud telles que des projets, des services ou d'autres dimensions pertinentes, vous pouvez les catégoriser et les organiser. Vous pouvez ainsi surveiller et analyser les tendances de dépenses pour des ressources spécifiques, et identifier les zones d'utilisation élevée ou les économies de coûts potentielles. Cette recommandation s'applique aux axes de préparation opérationnelle suivants : gouvernance et outils.

Des outils tels que Cloud Billing et la gestion des coûts vous aident à comprendre de manière exhaustive vos habitudes de dépenses. Ces outils fournissent des insights détaillés sur votre utilisation du cloud. Ils vous permettent d'identifier les tendances, de prévoir les coûts et de prendre des décisions éclairées. En analysant les données historiques et les tendances de dépenses actuelles, vous pouvez identifier les axes d'optimisation des coûts.

Les tableaux de bord et les rapports personnalisés vous aident à visualiser les données de coût et à obtenir des insights plus détaillés sur les tendances de dépenses. En personnalisant des tableaux de bord avec des métriques et des dimensions pertinentes, vous pouvez surveiller les indicateurs clés de performance (KPI) et suivre la progression vers vos objectifs d'optimisation des coûts. Les rapports offrent des analyses plus approfondies des données sur les coûts. Les rapports vous permettent de filtrer les données par périodes ou types de ressources spécifiques afin de comprendre les facteurs sous-jacents qui contribuent à vos dépenses cloud.

Examinez et mettez à jour régulièrement vos balises, étiquettes et outils d'analyse des coûts pour vous assurer de disposer des informations les plus récentes sur votre utilisation et vos coûts dans le cloud. En restant informé et en effectuant des analyses post-mortem ou des examens des coûts de manière proactive, vous pouvez identifier rapidement toute augmentation inattendue des dépenses. Vous pouvez ainsi prendre des décisions proactives pour optimiser les ressources cloud et contrôler les coûts.

Définir la répartition des coûts et le budget

La responsabilité et la transparence dans la gestion des coûts liés au cloud sont essentielles pour optimiser l'utilisation des ressources et assurer un contrôle financier. Cette recommandation est pertinente pour le domaine d'intérêt de la gouvernance "Préparation opérationnelle".

Pour garantir la responsabilité et la transparence, vous devez disposer de mécanismes clairs d'allocation des coûts et de rejet de débit. En attribuant des coûts à des équipes, des projets ou des personnes spécifiques, votre organisation peut s'assurer que chacune de ces entités est responsable de son utilisation du cloud. Cette pratique favorise un sentiment d'appartenance et encourage une gestion responsable des ressources. De plus, les mécanismes de facturation permettent à votre organisation de récupérer les coûts cloud auprès des clients internes, d'aligner les incitations sur les performances et de promouvoir la discipline budgétaire.

Établir des budgets pour différentes équipes ou projets est un autre aspect essentiel de la gestion des coûts cloud. Les budgets permettent à votre organisation de définir des limites de dépenses et de suivre les dépenses réelles par rapport à ces limites. Cette approche vous permet de prendre des décisions proactives pour éviter les dépenses incontrôlées. En définissant des budgets réalistes et réalisables, vous pouvez vous assurer que les ressources cloud sont utilisées efficacement et en adéquation avec les objectifs commerciaux. La surveillance régulière des dépenses réelles par rapport aux budgets vous aide à identifier les écarts et à résoudre rapidement les dépassements potentiels.

Pour surveiller les budgets, vous pouvez utiliser des outils tels que les budgets et alertes Cloud Billing. Ces outils fournissent des insights en temps réel sur les dépenses cloud et avertissent les personnes concernées des dépassements potentiels. Grâce à ces fonctionnalités, vous pouvez suivre les coûts cloud et prendre des mesures correctives avant que des écarts importants ne se produisent. Cette approche proactive permet d'éviter les surprises financières et de s'assurer que les ressources cloud sont utilisées de manière responsable.

Automatiser et gérer le changement

Ce principe du pilier de l'excellence opérationnelle du Google Cloud framework Well-Architected fournit des recommandations pour vous aider à automatiser et à gérer le changement pour vos charges de travail cloud. Elle implique l'implémentation de l'infrastructure as code (IaC), l'établissement de procédures opérationnelles standards, l'implémentation d'un processus de gestion des changements structuré et l'utilisation de l'automatisation et de l'orchestration.

Présentation des principes

La gestion du changement et l'automatisation jouent un rôle essentiel pour assurer des transitions fluides et contrôlées dans les environnements cloud. Pour une gestion efficace du changement, vous devez utiliser des stratégies et des bonnes pratiques qui minimisent les perturbations et garantissent que les changements sont intégrés de manière transparente aux systèmes existants.

La gestion et l'automatisation efficaces des changements incluent les éléments fondamentaux suivants:

  • Gouvernance du changement: établissez des règles et des procédures claires pour la gestion du changement, y compris des processus d'approbation et des plans de communication.
  • Évaluation des risques: identifiez les risques potentiels associés aux changements et atténuez-les à l'aide de techniques de gestion des risques.
  • Tests et validation: testez minutieusement les modifications pour vous assurer qu'elles répondent aux exigences fonctionnelles et de performances, et pour atténuer les régressions potentielles.
  • Déploiement contrôlé: implémentez les modifications de manière contrôlée, en vous assurant que les utilisateurs passent facilement au nouvel environnement, avec des mécanismes permettant de revenir en arrière si nécessaire.

Ces éléments de base permettent de minimiser l'impact des changements et de s'assurer qu'ils ont un impact positif sur les opérations de l'entreprise. Ces éléments sont représentés par les axes d'attention de la préparation opérationnelle en termes de processus, d'outils et de gouvernance.

Recommandations

Pour automatiser et gérer les modifications, consultez les recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs des axes d'attention de la préparation opérationnelle.

Adopter l'IaC

L'Infrastructure as Code (IaC) est une approche transformatrice pour la gestion de l'infrastructure cloud. Vous pouvez définir et gérer de manière déclarative l'infrastructure cloud à l'aide d'outils tels que Terraform. L'IaC vous aide à assurer la cohérence, la reproductibilité et la gestion simplifiée des modifications. Il permet également des déploiements plus rapides et plus fiables. Cette recommandation s'applique aux axes de préparation opérationnelle suivants : processus et outils.

Voici les principaux avantages de l'approche IaC pour vos déploiements cloud:

  • Configurations de ressources lisibles par l'homme: avec l'approche IaC, vous pouvez déclarer vos ressources d'infrastructure cloud dans un format lisible par l'homme, comme JSON ou YAML. Les administrateurs et les opérateurs de l'infrastructure peuvent facilement la comprendre et la modifier, et collaborer avec d'autres personnes.
  • Cohérence et reproductibilité: l'IaC permet d'assurer la cohérence et la reproductibilité de vos déploiements d'infrastructure. Vous pouvez vous assurer que votre infrastructure est provisionnée et configurée de la même manière à chaque fois, quel que soit l'utilisateur qui effectue le déploiement. Cette approche permet de réduire les erreurs et de s'assurer que votre infrastructure est toujours dans un état connu.
  • Responsabilité et dépannage simplifié: l'approche IaC permet d'améliorer la responsabilité et de simplifier le dépannage des problèmes. En stockant votre code IaC dans un système de contrôle des versions, vous pouvez suivre les modifications, et identifier quand elles ont été apportées et par qui. Si nécessaire, vous pouvez facilement revenir à des versions antérieures.

Implémenter le contrôle des versions

Un système de contrôle des versions tel que Git est un composant clé du processus d'intégration continue. Il offre des fonctionnalités de gestion du changement et d'atténuation des risques robustes, ce qui explique son adoption généralisée, que ce soit via le développement en interne ou des solutions SaaS. Cette recommandation s'applique aux domaines d'intérêt de la préparation opérationnelle suivants : gouvernance et outils.

En suivant les modifications apportées au code et aux configurations de l'IaC, le contrôle des versions offre une visibilité sur l'évolution du code, ce qui permet de mieux comprendre l'impact des modifications et d'identifier les problèmes potentiels. Cette visibilité accrue favorise la collaboration entre les membres de l'équipe qui travaillent sur le même projet d'intégration continue.

La plupart des systèmes de contrôle des versions vous permettent de rétablir facilement les modifications si nécessaire. Cette fonctionnalité permet de limiter le risque de conséquences ou d'erreurs involontaires. En utilisant des outils tels que Git dans votre workflow d'IaC, vous pouvez améliorer considérablement les processus de gestion des modifications, favoriser la collaboration et atténuer les risques, ce qui permet une implémentation de l'IaC plus efficace et fiable.

Créer des pipelines CI/CD

Les pipelines d'intégration et de livraison continues (CI/CD) simplifient le processus de développement et de déploiement des applications cloud. Les pipelines CI/CD automatisent les étapes de compilation, de test et de déploiement, ce qui permet de publier des versions plus rapidement et plus fréquemment, tout en améliorant le contrôle qualité. Cette recommandation s'applique à l'axe d'attention de la préparation opérationnelle des outils.

Les pipelines CI/CD garantissent que les modifications de code sont intégrées en continu dans un dépôt central, généralement un système de contrôle des versions tel que Git. L'intégration continue facilite la détection et la résolution précoces des problèmes, et réduit la probabilité de bugs ou de problèmes de compatibilité.

Pour créer et gérer des pipelines CI/CD pour des applications cloud, vous pouvez utiliser des outils tels que Cloud Build et Cloud Deploy.

  • Cloud Build est un service de compilation entièrement géré qui permet aux développeurs de définir et d'exécuter des étapes de compilation de manière déclarative. Il s'intègre parfaitement aux plates-formes de gestion du code source populaires et peut être déclenché par des événements tels que des transferts de code et des requêtes pull.
  • Cloud Deploy est un service de déploiement sans serveur qui automatise le processus de déploiement d'applications dans différents environnements, tels que les environnements de test, de préproduction et de production. Il offre des fonctionnalités telles que les déploiements bleu-vert, la répartition du trafic et les fonctionnalités de rollback, ce qui facilite la gestion et la surveillance des déploiements d'applications.

Intégrer des pipelines CI/CD à des systèmes de contrôle des versions et à des frameworks de test permet de garantir la qualité et la fiabilité de vos applications cloud. En exécutant des tests automatisés dans le cadre du processus CI/CD, les équipes de développement peuvent identifier et résoudre rapidement les problèmes avant que le code ne soit déployé dans l'environnement de production. Cette intégration permet d'améliorer la stabilité et les performances globales de vos applications cloud.

Utiliser des outils de gestion de la configuration

Des outils tels que Puppet, Chef, Ansible et VM Manager vous aident à automatiser la configuration et la gestion des ressources cloud. Grâce à ces outils, vous pouvez assurer la cohérence et la conformité des ressources dans vos environnements cloud. Cette recommandation s'applique à l'axe d'attention de la préparation opérationnelle des outils.

L'automatisation de la configuration et de la gestion des ressources cloud présente les avantages suivants:

  • Réduction significative du risque d'erreurs manuelles: lorsque des processus manuels sont impliqués, le risque d'erreurs dues à l'humain est plus élevé. Les outils de gestion des configurations réduisent ce risque en automatisant les processus, de sorte que les configurations soient appliquées de manière cohérente et précise à l'ensemble des ressources cloud. Cette automatisation peut améliorer la fiabilité et la stabilité de l'environnement cloud.
  • Amélioration de l'efficacité opérationnelle: en automatisant les tâches répétitives, votre organisation peut libérer du temps pour que son personnel IT se concentre sur des initiatives plus stratégiques. Cette automatisation peut entraîner une augmentation de la productivité et des économies de coûts, ainsi qu'une meilleure réactivité aux besoins en constante évolution de l'entreprise.
  • Gestion simplifiée d'une infrastructure cloud complexe: à mesure que les environnements cloud gagnent en taille et en complexité, la gestion des ressources peut devenir de plus en plus difficile. Les outils de gestion de la configuration fournissent une plate-forme centralisée pour gérer les ressources cloud. Ces outils facilitent le suivi des configurations, l'identification des problèmes et la mise en œuvre des modifications. L'utilisation de ces outils peut améliorer la visibilité, le contrôle et la sécurité de votre environnement cloud.

Automatiser les tests

Intégrer des tests automatisés à vos pipelines CI/CD permet de garantir la qualité et la fiabilité de vos applications cloud. En validant les modifications avant le déploiement, vous pouvez réduire considérablement le risque d'erreurs et de régressions, ce qui permet d'obtenir un système logiciel plus stable et plus robuste. Cette recommandation s'applique aux axes de préparation opérationnelle suivants : processus et outils.

Voici les principaux avantages de l'intégration de tests automatisés dans vos pipelines CI/CD:

  • Détection précoce des bugs et des défauts: les tests automatisés permettent de détecter les bugs et les défauts dès le début du processus de développement, avant qu'ils ne puissent causer des problèmes majeurs en production. Cette fonctionnalité permet de gagner du temps et des ressources en évitant de devoir effectuer des révisions coûteuses et des corrections de bugs à des stades ultérieurs du processus de développement.
  • Code de haute qualité et conforme aux normes: les tests automatisés peuvent contribuer à améliorer la qualité globale de votre code en vous assurant qu'il respecte certaines normes et bonnes pratiques. Cette fonctionnalité permet de créer des applications plus faciles à gérer et plus fiables, moins sujettes aux erreurs.

Vous pouvez utiliser différents types de techniques de test dans les pipelines CI/CD. Chaque type de test a une fonction spécifique.

  • Les tests unitaires visent à tester des unités de code individuelles, telles que des fonctions ou des méthodes, pour s'assurer qu'elles fonctionnent comme prévu.
  • Les tests d'intégration testent les interactions entre les différents composants ou modules de votre application pour vérifier qu'ils fonctionnent correctement ensemble.
  • Les tests de bout en bout sont souvent utilisés avec les tests unitaires et d'intégration. Les tests de bout en bout simulent des scénarios réels pour tester l'application dans son ensemble et s'assurer qu'elle répond aux exigences de vos utilisateurs finaux.

Pour intégrer efficacement les tests automatisés à vos pipelines CI/CD, vous devez choisir les outils et frameworks de test appropriés. Il existe de nombreuses options différentes, chacune présentant ses propres avantages et inconvénients. Vous devez également établir une stratégie de test claire qui décrit les types de tests à effectuer, la fréquence des tests et les critères de réussite ou d'échec d'un test. En suivant ces recommandations, vous pouvez vous assurer que votre processus de test automatisé est efficace. Un tel processus fournit des insights précieux sur la qualité et la fiabilité de vos applications cloud.

Améliorer et innover en permanence

Ce principe du pilier de l'excellence opérationnelle du Google Cloud framework Well-Architected fournit des recommandations pour vous aider à optimiser en continu les opérations cloud et à stimuler l'innovation.

Présentation des principes

Pour améliorer et innover en permanence dans le cloud, vous devez vous concentrer sur l'apprentissage, l'expérimentation et l'adaptation continus. Vous pouvez ainsi explorer de nouvelles technologies et optimiser les processus existants, et promouvoir une culture d'excellence qui permet à votre organisation d'atteindre et de maintenir une position de leader dans son secteur.

Grâce à l'amélioration et à l'innovation continues, vous pouvez atteindre les objectifs suivants:

  • Accélérez l'innovation: explorez de nouvelles technologies et de nouveaux services pour améliorer vos fonctionnalités et vous démarquer.
  • Réduire les coûts: identifiez et éliminez les inefficacités grâce à des initiatives d'amélioration des processus.
  • Améliorer l'agilité: adaptez-vous rapidement aux nouvelles exigences du marché et aux besoins des clients.
  • Améliorez la prise de décision: obtenez des insights précieux à partir des données et des analyses pour prendre des décisions éclairées.

Les entreprises qui adoptent le principe d'amélioration et d'innovation continue peuvent exploiter tout le potentiel de l'environnement cloud et réaliser une croissance durable. Ce principe correspond principalement à la zone de concentration de la main-d'œuvre sur la préparation opérationnelle. Une culture d'innovation permet aux équipes d'expérimenter de nouveaux outils et technologies pour élargir leurs capacités et réduire les coûts.

Recommandations

Pour améliorer et innover en permanence vos charges de travail cloud, tenez compte des recommandations des sections suivantes. Chaque recommandation de ce document concerne un ou plusieurs des axes d'attention de la préparation opérationnelle.

Favoriser une culture de l'apprentissage

Encouragez les équipes à tester, à partager leurs connaissances et à apprendre en permanence. Adoptez une culture d'absence de blâme, où les échecs sont considérés comme des opportunités de croissance et d'amélioration. Cette recommandation s'applique à la zone de concentration de la préparation opérationnelle de la main-d'œuvre.

Lorsque vous favorisez une culture d'apprentissage, les équipes peuvent tirer des enseignements de leurs erreurs et itérer rapidement. Cette approche encourage les membres de l'équipe à prendre des risques, à tester de nouvelles idées et à repousser les limites de leur travail. Cela crée également un environnement psychologiquement sûr dans lequel les individus se sentent à l'aise pour partager leurs échecs et en tirer des enseignements. Ce partage crée un environnement plus ouvert et collaboratif.

Pour faciliter le partage de connaissances et l'apprentissage continu, créez des occasions pour les équipes de partager leurs connaissances et d'apprendre les unes des autres. Vous pouvez le faire via des sessions et des conférences d'apprentissage informelles et formelles.

En favorisant une culture de l'expérimentation, du partage des connaissances et de l'apprentissage continu, vous pouvez créer un environnement dans lequel les équipes sont encouragées à prendre des risques, à innover et à se développer. Cet environnement peut entraîner une augmentation de la productivité, une meilleure résolution des problèmes et une main-d'œuvre plus engagée et motivée. De plus, en promouvant une culture non accusatoire, vous pouvez créer un espace sûr où les employés peuvent apprendre de leurs erreurs et contribuer aux connaissances collectives de l'équipe. Cette culture conduit à une main-d'œuvre plus résiliente et adaptable, mieux équipée pour relever les défis et assurer le succès à long terme.

Mener des rétrospectives régulières

Les rétrospectives permettent aux équipes de réfléchir à leurs expériences, d'identifier ce qui s'est bien passé et ce qui peut être amélioré. En effectuant des rétrospectives après des projets ou des incidents majeurs, les équipes peuvent tirer des enseignements des succès et des échecs, et améliorer continuellement leurs processus et leurs pratiques. Cette recommandation s'applique aux domaines d'attention de la préparation opérationnelle suivants : processus et gouvernance.

Un moyen efficace de structurer une rétrospective consiste à utiliser le modèle Démarrage-Arrêt-Poursuite:

  • Début: lors de la phase Début de la rétrospective, les membres de l'équipe identifient de nouvelles pratiques, processus et comportements qui, selon eux, peuvent améliorer leur travail. Il explique pourquoi les changements sont nécessaires et comment ils peuvent être mis en œuvre.
  • Arrêter: lors de la phase Arrêter, les membres de l'équipe identifient et éliminent les pratiques, les processus et les comportements qui ne sont plus efficaces ou qui entravent la progression. Il explique pourquoi ces changements sont nécessaires et comment ils peuvent être mis en œuvre.
  • Continuer: lors de la phase Continue (Poursuivre), les membres de l'équipe identifient les pratiques, les processus et les comportements qui fonctionnent bien et doivent être poursuivis. Il explique pourquoi ces éléments sont importants et comment ils peuvent être renforcés.

En utilisant un format structuré comme le modèle "Start-Stop-Continue" (Démarrer, Arrêter, Continuer), les équipes peuvent s'assurer que les rétrospectives sont productives et ciblées. Ce modèle permet de faciliter la discussion, d'identifier les principaux points à retenir et de définir des mesures concrètes pour de futures améliorations.

Restez informé des technologies cloud

Pour maximiser le potentiel des services Google Cloud , vous devez vous tenir au courant des dernières avancées, fonctionnalités et bonnes pratiques. Cette recommandation s'applique à l'axe de préparation opérationnelle de la main-d'œuvre.

Participer à des conférences, des webinaires et des sessions de formation pertinents est un excellent moyen d'élargir vos connaissances. Ces événements vous permettent d'apprendre des Google Cloud experts, de découvrir de nouvelles fonctionnalités et d'échanger avec des pairs du secteur qui peuvent être confrontés à des défis similaires. En participant à ces sessions, vous pourrez découvrir comment utiliser efficacement les nouvelles fonctionnalités, optimiser vos opérations cloud et stimuler l'innovation au sein de votre organisation.

Pour vous assurer que les membres de votre équipe restent à jour avec les technologies cloud, encouragez-les à obtenir des certifications et à suivre des formations. Google Cloudpropose un large éventail de certifications qui valident les compétences et les connaissances dans des domaines cloud spécifiques. L'obtention de ces certifications démontre votre engagement envers l'excellence et constitue une preuve tangible de votre maîtrise des technologies cloud. Les cours de formation proposés par Google Cloud et nos partenaires approfondissent des sujets spécifiques. Ils offrent une expérience directe et des compétences pratiques qui peuvent être immédiatement appliquées à des projets concrets. En investissant dans le développement professionnel de votre équipe, vous pouvez favoriser une culture d'apprentissage continu et vous assurer que chacun dispose des compétences nécessaires pour réussir dans le cloud.

Rechercher et intégrer activement les commentaires

Collectez les commentaires des utilisateurs, des partenaires et des membres de l'équipe. Utilisez ces commentaires pour identifier des pistes d'amélioration de vos solutions cloud. Cette recommandation est pertinente pour le domaine d'application de la préparation opérationnelle de la main-d'œuvre.

Les commentaires que vous collectez peuvent vous aider à comprendre l'évolution des besoins, des problèmes et des attentes des utilisateurs de vos solutions. Ces commentaires nous aident à apporter des améliorations et à hiérarchiser les futures améliorations. Vous pouvez utiliser différents mécanismes pour recueillir des commentaires:

  • Les enquêtes sont un moyen efficace de collecter des données quantitatives auprès d'un grand nombre d'utilisateurs et de personnes concernées.
  • Les entretiens avec les utilisateurs permettent de collecter des données qualitatives approfondies. Les entretiens vous permettent de comprendre les défis et les expériences spécifiques de chaque utilisateur.
  • Les formulaires de commentaires intégrés aux solutions cloud permettent aux utilisateurs de donner leur avis immédiat sur leur expérience.
  • Les réunions régulières avec les membres de l'équipe peuvent faciliter la collecte de commentaires sur les aspects techniques et les défis d'implémentation.

Les commentaires que vous collectez via ces mécanismes doivent être analysés et synthétisés pour identifier les thèmes et les tendances communs. Cette analyse peut vous aider à hiérarchiser les futures améliorations en fonction de leur impact et de leur faisabilité. En répondant aux besoins et aux problèmes identifiés grâce aux commentaires, vous pouvez vous assurer que vos solutions cloud continuent de répondre aux exigences évolutives de vos utilisateurs et partenaires.

Mesurer et suivre la progression

Les indicateurs clés de performance (KPI) et les métriques sont essentiels pour suivre la progression et mesurer l'efficacité de vos opérations cloud. Les KPI sont des mesures quantifiables qui reflètent les performances globales. Les métriques sont des points de données spécifiques qui contribuent au calcul des KPI. Examinez régulièrement les métriques et utilisez-les pour identifier les possibilités d'amélioration et mesurer la progression. Vous pouvez ainsi améliorer et optimiser continuellement votre environnement cloud. Cette recommandation s'applique aux domaines clés de la préparation opérationnelle : gouvernance et processus.

L'utilisation de KPI et de métriques présente un avantage principal : elle permet à votre organisation d'adopter une approche axée sur les données pour les opérations cloud. En suivant et en analysant les données opérationnelles, vous pouvez prendre des décisions éclairées sur la façon d'améliorer l'environnement cloud. Cette approche axée sur les données vous aide à identifier les tendances, les schémas et les anomalies qui pourraient ne pas être visibles sans l'utilisation de métriques systématiques.

Pour collecter et analyser des données opérationnelles, vous pouvez utiliser des outils tels que Cloud Monitoring et BigQuery. Cloud Monitoring permet de surveiller en temps réel les ressources et services cloud. BigQuery vous permet de stocker et d'analyser les données que vous collectez via la surveillance. En combinant ces outils, vous pouvez créer des tableaux de bord personnalisés pour visualiser les métriques et les tendances importantes.

Les tableaux de bord opérationnels peuvent fournir une vue centralisée des métriques les plus importantes, ce qui vous permet d'identifier rapidement les domaines qui nécessitent votre attention. Par exemple, un tableau de bord peut inclure des métriques telles que l'utilisation du processeur, l'utilisation de la mémoire, le trafic réseau et la latence d'une application ou d'un service particulier. En surveillant ces métriques, vous pouvez identifier rapidement les problèmes potentiels et prendre les mesures nécessaires pour les résoudre.