Professional Cloud DevOps Engineer
Prüfungsleitfaden
Professional Cloud-DevOps Engineers implementieren Prozesse im gesamten Lebenszyklus der Systementwicklung mithilfe von Methoden und Tools, die von Google empfohlen werden. Sie erstellen und implementieren Pipelines zur Software- und Infrastrukturbereitstellung, optimieren und warten Produktionssysteme und -dienste und sorgen für ein ausgeglichenes Verhältnis zwischen Dienstzuverlässigkeit und Bereitstellungsgeschwindigkeit.
Abschnitt 1: Google Cloud-Organisation für DevOps booten (ca. 17% der Prüfung)
1.1 Gesamtressourcenhierarchie für eine Organisation entwerfen. Folgende Punkte gehören dazu:
● Projekte und Ordner
● Freigegebene Netzwerke
● IAM-Rollen (Identity and Access Management) und Richtlinien auf Organisationsebene
● Dienstkonten erstellen und verwalten
1.2 Infrastruktur als Code verwalten Folgende Punkte gehören dazu:
● Infrastruktur als Code-Tools (z. B. Cloud Foundation Toolkit, Config Connector, Terraform, Helm)
● Infrastrukturänderungen mit von Google empfohlenen Praktiken und Infrastruktur als Code-Blueprints vornehmen
● Nicht veränderbare Architektur
1.3 CI/CD-Architekturstack in Google Cloud-, Hybrid- und Multi-Cloud-Umgebungen entwerfen. Folgende Punkte gehören dazu:
● CI mit Cloud Build
● CD mit Google Cloud Deploy
● Häufig verwendete Tools von Drittanbietern (z. B. Jenkins, Git, ArgoCD, Packer)
● Sicherheit von CI/CD-Tools
1.4 Mehrere Umgebungen verwalten (z. B. Staging oder Produktion). Folgende Punkte gehören dazu:
● Ermittlung der Anzahl der Umgebungen und ihres Zwecks
● Dynamisches Erstellen von Umgebungen für jeden Feature-Zweig mit Google Kubernetes Engine (GKE) und Terraform
● Config Management
Abschnitt 2: CI/CD-Pipelines für einen Dienst erstellen und implementieren (ca. 23% der Prüfung)
2.1 CI/CD-Pipelines entwerfen und verwalten. Folgende Punkte gehören dazu:
● Artefaktverwaltung mit Artifact Registry
● Bereitstellung in Hybrid- und Multi-Cloud-Umgebungen (z. B. Anthos, GKE)
● CI/CD-Pipeline-Trigger
● Neue Anwendungsversion in der Pipeline testen
● Bereitstellungsprozesse konfigurieren (z. B. Genehmigungsabläufe)
● CI/CD serverloser Anwendungen
2.2 CI/CD-Pipelines implementieren. Folgende Punkte gehören dazu:
● Audits und Tracking von Deployments (z. B. Artifact Registry, Cloud Build, Google Cloud Deploy, Cloud-Audit-Logs)
● Bereitstellungsstrategien (z. B. Canary, Blau/Grün, Rolling, Traffic-Aufteilung)
● Rollback-Strategien
● Fehlerbehebung bei Bereitstellungsproblemen
2.3 CI/CD-Konfiguration und -Secrets verwalten. Folgende Punkte gehören dazu:
● Sichere Speichermethoden und Schlüsselrotationsdienste (z. B. Cloud Key Management Service, Secret Manager)
● Secret-Verwaltung
● Einschleusung von Build- und Laufzeit-Secrets
2.4 CI/CD-Bereitstellungspipeline sichern. Folgende Punkte gehören dazu:
● Analyse von Sicherheitslücken mit Artifact Registry
● Binärautorisierung
● IAM-Richtlinien pro Umgebung
Abschnitt 3: Site Reliability Engineering-Praktiken auf einen Dienst anwenden (ca. 23% der Prüfung)
3.1 Änderung, Geschwindigkeit und Zuverlässigkeit des Dienstes ausgleichen. Folgende Punkte gehören dazu:
● Erkennen von SLIs (z. B. Verfügbarkeit, Latenz)
● SLOs definieren und SLAs verstehen
● Fehlerbudgets
● Komplexe Abläufe automatisieren
● Risikokosten und Zuverlässigkeit (z. B. Anzahl der Neunen)
3.2 Dienstlebenszyklus verwalten. Folgende Punkte gehören dazu:
● Dienstverwaltung (z. B. Einführung eines neuen Dienstes mithilfe einer Vorab-Service-Onboarding-Checkliste, Einführung- oder Bereitstellungsplan, Bereitstellung, Wartung und Ausmusterung)
● Kapazitätsplanung (z. B. Kontingente und Limits)
● Autoscaling mit verwalteten Instanzgruppen, Cloud Run, Cloud Functions oder GKE
● Implementierung von Feedbackschleifen zur Verbesserung eines Dienstes
3.3 Für eine sichere Kommunikation und Zusammenarbeit im Betrieb sorgen. Folgende Punkte gehören dazu:
● Burnout verhindern (z. B. Automatisierungsprozesse zur Verhinderung eines Burnouts)
● Förderung einer Kultur des Lernens und der Schuldlosigkeit
● Einrichtung von gemeinsamen Eigentumsrechten für Dienste, um Teamsilos zu beseitigen
3.4 Auswirkung von Vorfällen auf Nutzer minimieren. Folgende Punkte gehören dazu:
● Kommunikation während eines Vorfalls
● Ausgleich/Weiterleitung von Traffic
● Kapazität erhöhen
3.5 Postmortem durchführen. Folgende Punkte gehören dazu:
● Dokumentation der Ursachen
● Erstellen und Priorisieren von Aufgaben
● Kommunikation der Postmortem an Stakeholder
Abschnitt 4: Strategien zur Dienstüberwachung implementieren (ca. 21% der Prüfung)
4.1 Logs verwalten. Folgende Punkte gehören dazu:
● Mit Cloud Logging strukturierte und unstrukturierte Logs aus Compute Engine, GKE und serverlosen Plattformen erfassen
● Cloud Logging-Agent konfigurieren
● Erfassen von Logs von außerhalb von Google Cloud
● Anwendungslogs direkt an die Cloud Logging API senden
● Log-Ebenen (z. B. Informationen, Fehler, Fehlerbehebung, schwerwiegender Fehler)
● Logs optimieren (z. B. mehrzeiliges Logging, Ausnahmen, Größe, Kosten)
4.2 Messwerte mit Cloud Monitoring verwalten. Folgende Punkte gehören dazu:
● Erfassen und Analysieren von Anwendungs- und Plattformmesswerten
● Messwerte für Netzwerke und Service Mesh erfassen
● Metrics Explorer für Ad-hoc-Messwertanalysen verwenden
● Benutzerdefinierte Messwerte aus Logs erstellen
4.3 Dashboards und Benachrichtigungen in Cloud Monitoring verwalten. Folgende Punkte gehören dazu:
● Monitoring-Dashboard erstellen
● Dashboards filtern und teilen
● Benachrichtigungen konfigurieren
● Definieren von Benachrichtigungsrichtlinien basierend auf SLOs und SLIs
● Definition der Benachrichtigungsrichtlinie mit Terraform automatisieren
● Mit Google Cloud Managed Service for Prometheus Messwerte erfassen sowie Monitoring und Benachrichtigungen einrichten
4.4 Cloud Logging-Plattform verwalten. Folgende Punkte gehören dazu:
● Datenzugriffslogs aktivieren (z. B. Cloud-Audit-Logs)
● VPC-Flusslogs aktivieren
● Logs in der Google Cloud Console ansehen
● Verwendung von einfachen und erweiterten Logfiltern
● Logausschlüsse und Logexporte
● Export auf Projektebene oder auf Organisationsebene
● Logexporte verwalten und aufrufen
● Logs an externe Logging-Plattform senden
● Filterung und Entfernung sensibler Daten (z. B. personenidentifizierbare Informationen [PII], geschützte Gesundheitsdaten [PHI])
4.5 Logging- und Monitoring-Zugriffssteuerungen implementieren. Folgende Punkte gehören dazu:
● Einschränkung des Zugriffs auf Audit-Logs und VPC-Flusslogs mit Cloud Logging
● Einschränkung der Exportkonfiguration mit Cloud Logging
● Messwert- und Logschreibvorgänge mit Cloud Monitoring zulassen
Abschnitt 5: Leistung des Dienstes optimieren (ca. 16% der Prüfung)
5.1 Leistungsprobleme bei Diensten ermitteln. Folgende Punkte gehören dazu:
● Mit der Operations-Suite von Google Cloud die Cloud-Ressourcennutzung ermitteln
● Interpretation von Service Mesh-Telemetrie
● Fehlerbehebung bei Rechenressourcen
● Fehlerbehebung bei Zeit- und Laufzeitproblemen mit Anwendungen
● Fehlerbehebung bei Netzwerkproblemen (z. B. VPC-Flusslogs, Firewalllogs, Latenz, Netzwerkdetails ansehen)
5.2 Debugging-Tools in Google Cloud implementieren. Folgende Punkte gehören dazu:
● Anwendungsinstrumentierung
● Cloud Logging
● Cloud Trace
● Error Reporting
● Cloud Profiler
● Cloud Monitoring
5.3 Ressourcennutzung und -kosten optimieren. Folgende Punkte gehören dazu:
● Virtuelle Maschinen auf Abruf/Spot (VMs)
● Rabatte für zugesicherte Nutzung (z. B. flexibel, ressourcenbasiert)
● Rabatte für kontinuierliche Nutzung
● Netzwerk-Tier
● Empfehlungen zur Größenanpassung