Professional Cloud DevOps Engineer
Guide de l'examen de certification
Un Professional Cloud DevOps Engineer implémente des processus tout au long du cycle de vie du développement de systèmes à l'aide des méthodologies et des outils recommandés par Google. Il crée et déploie des pipelines de livraison de logiciels et d'infrastructures, optimisent et maintient les systèmes et services de production, et équilibre la fiabilité des services tout en accélérant les délais de livraison.
Section 1 : Amorcer une organisation Google Cloud pour le DevOps (environ 17 % de l'examen)
1.1 Concevoir la hiérarchie globale des ressources d'une organisation. Voici quelques points à prendre en compte :
● Projets et dossiers
● Mise en réseau partagée
● Rôles IAM (Identity and Access Management) et stratégies au niveau de l'organisation
● Création et gestion des comptes de service
1.2 Gérer une Infrastructure as Code. Voici quelques points à prendre en compte :
● Outils de type Infrastructure as Code (par exemple, kit Cloud Foundation, Config Connector, Terraform, Helm)
● Modification de l'infrastructure à l'aide des pratiques recommandées par Google et de plans Infrastructure as code
● Architecture immuable
1.3 Concevoir une pile d'architecture CI/CD dans des environnements Google Cloud, hybrides et multicloud. Voici quelques points à prendre en compte :
● CI avec Cloud Build
● CD avec Google Cloud Deploy
● Outils tiers très utilisés (par exemple, Jenkins, Git, ArgoCD, Packer)
● Sécurité des outils CI/CD
1.4 Gérer plusieurs environnements (par exemple, préproduction, production). Voici quelques points à prendre en compte :
● Déterminer le nombre d'environnements et leur finalité
● Créer des environnements de manière dynamique pour chaque branche de fonctionnalité avec Google Kubernetes Engine (GKE) et Terraform
● Config Management
Section 2 : Créer et mettre en œuvre des pipelines CI/CD pour un service (environ 23 % de l'examen)
2.1 Concevoir et gérer des pipelines CI/CD. Voici quelques points à prendre en compte :
● Gestion des artefacts avec Artifact Registry
● Déploiement dans des environnements hybrides et multicloud (par exemple, Anthos GKE)
● Déclencheurs de pipelines CI/CD
● Test d'une nouvelle version de l'application dans le pipeline
● Configuration de processus de déploiement (par exemple, workflows d'approbation)
● CI/CD pour les applications sans serveur
2.2 Implémenter des pipelines CI/CD. Voici quelques points à prendre en compte :
● Audit et suivi des déploiements (par exemple, Artifact Registry, Cloud Build, Google Cloud Deploy, Cloud Audit Logs)
● Stratégies de déploiement (par exemple, Canary, bleu-vert, progressif, répartition du trafic)
● Stratégies de rollback
● Résolution des problèmes de déploiement
2.3 Gérer la configuration CI/CD et les secrets. Voici quelques points à prendre en compte :
● Méthodes de stockage sécurisées et services de rotation des clés (par exemple, Cloud Key Management Service, Secret Manager)
● Gérer les secrets
● Injection de secrets par rapport à la compilation ou à l'exécution
2.4 Sécuriser le pipeline de déploiement CI/CD. Voici quelques points à prendre en compte :
● Analyse des failles avec Artifact Registry
● Autorisation binaire
● Stratégies IAM par environnement
Section 3 : Appliquer des pratiques d'ingénierie en fiabilité des sites à un service (environ 23 % de l'examen)
3.1 Équilibrer les modifications, la rapidité et la fiabilité des services. Voici quelques points à prendre en compte :
● Découvrir les SLI (par exemple, disponibilité, latence)
● Définir des SLO et comprendre les contrats de niveau de service
● Marges d'erreur
● Automatiser les tâches laborieuses
● Coût d'opportunité du risque et de la fiabilité (par exemple, nombre de "neuf")
3.2 Gérer le cycle de vie des services. Voici quelques points à prendre en compte :
● Gestion du service (par exemple, lancement d'un nouveau service à l'aide d'une liste de contrôle avant intégration, d'un plan de lancement ou de déploiement [déploiement, maintenance et retraite]
● Planification des capacités (par exemple, gestion des quotas et des limites)
● Autoscaling à l'aide de groupes d'instances gérés, Cloud Run, Cloud Functions ou GKE
● Mise en œuvre des boucles de rétroaction pour améliorer un service
3.3 Assurer une communication et une collaboration de qualité pour les opérations. Points abordés :
● Prévenir le burnout (par exemple, mettre en place des processus automatisés pour l'éviter)
● Promouvoir une culture de l'apprentissage et de l'irréprochabilité
● Établir une propriété commune des services pour éliminer les silos d'équipe
3.4 Limiter l'impact des incidents sur les utilisateurs. Voici quelques points à prendre en compte :
● Communication lors d'un incident
● Drainage/redirection du trafic
● Augmentation de la capacité
3.5 Effectuer une analyse post-mortem. Voici quelques points à prendre en compte :
● Documenter les causes premières
● Créer des tâches et les hiérarchiser
● Communiquer l'analyse post-mortem aux personnes concernées
Section 4 : Mettre en œuvre des stratégies de surveillance des services (environ 21 % de l'examen)
4.1 Gérer les journaux. Points abordés :
● Collecter des journaux structurés et non structurés depuis Compute Engine, GKE et des plates-formes sans serveur à l'aide de Cloud Logging
● Configurer l'agent Cloud Logging
● Collecter des journaux en dehors de Google Cloud
● Envoyer des journaux d'application directement à l'API Cloud Logging
● Niveaux de journalisation (par exemple, info, erreur, débogage, fatale)
● Optimiser les journaux (par exemple, journalisation multiligne, exceptions, taille et coût)
4.2 Gérer les métriques avec Cloud Monitoring. Voici quelques points à prendre en compte :
● Collecter et analyser des métriques d'application et de plate-forme
● Collecter des métriques de mise en réseau et de maillage de services
● Utiliser l'explorateur de métriques pour une analyse ad hoc des métriques
● Créer des métriques personnalisées à partir de journaux
4.3 Gérer les tableaux de bord et les alertes dans Cloud Monitoring. Voici quelques points à prendre en compte :
● Créer un tableau de bord de surveillance
● Filtrer et partager des tableaux de bord
● Configurer des alertes
● Définir des règles d'alerte basées sur les SLO et les SLI
● Automatiser la définition de règles d'alerte à l'aide de Terraform
● Utiliser Google Cloud Managed Service pour Prometheus pour collecter des métriques, et configurer la surveillance et les alertes
4.4 Gérer la plate-forme Cloud Logging. Voici quelques points à prendre en compte :
● Activer les journaux d'accès aux données (par exemple, Cloud Audit Logs)
● Activer les journaux de flux VPC
● Consulter des journaux dans la console Google Cloud
● Utiliser des filtres de journaux basiques ou avancés
● Exclure ou exporter des journaux
● Réaliser une exportation au niveau du projet ou de l'organisation
● Gérer et afficher les exportations de journaux
● Envoyer des journaux vers une plate-forme de journalisation externe
● Filtrer et masquer des données sensibles (par exemple, informations permettant d'identifier personnellement l'utilisateur, données de santé protégées)
4.5 Implémenter la journalisation et la surveillance des contrôles d'accès. Voici quelques points à prendre en compte :
● Restreindre l'accès aux journaux d'audit et aux journaux de flux VPC avec Cloud Logging
● Restreindre la configuration de l'exportation avec Cloud Logging
● Autoriser l'écriture de métriques et de journaux avec Cloud Monitoring
Section 5 : Optimiser les performances des services (environ 16 % de l'examen)
5.1 Identifier les problèmes de performances des services. Voici quelques points à prendre en compte :
● Utiliser la suite Google Cloud Operations pour identifier l'utilisation des ressources cloud
● Interpréter la télémétrie du maillage de services
● Résoudre les problèmes liés aux ressources de calcul
● Résoudre les problèmes de temps de déploiement et d'exécution des applications
● Résoudre les problèmes de réseau (par exemple, journaux de flux VPC, journaux de pare-feu, latence, détails du réseau)
5.2 Implémenter des outils de débogage dans Google Cloud. Voici quelques points à prendre en compte :
● Instrumentation d'applications
● Cloud Logging
● Cloud Trace
● Error Reporting
● Cloud Profiler
● Cloud Monitoring
5.3 Optimiser les coûts et l'utilisation des ressources. Voici quelques points à prendre en compte :
● Machines virtuelles (VM) préemptives/Spot
● Remises sur engagement d'utilisation (par exemple, flexibles, basées sur les ressources)
● Remises automatiques proportionnelles à une utilisation soutenue
● Niveaux de réseau
● Recommandations pour le dimensionnement