Erweitern Sie mit Google Cloud Innovators Ihre Google Cloud-Kenntnisse. Jetzt anmelden

Professional Cloud DevOps Engineer

Prüfungsleitfaden

Ein Professional Cloud DevOps Engineer sorgt für effiziente DevOps-Prozesse und ermöglicht so bei der Bereitstellung von Diensten ein ausgewogenes Maß an Zuverlässigkeit und Geschwindigkeit. Er setzt Google Cloud kompetent ein, um Pipelines für die Softwarelieferung zu erstellen, Dienste bereitzustellen und zu überwachen sowie Vorfälle zu verwalten und daraus zu lernen.


Bereich 1. Site Reliability Engineering-Grundsätze auf einen Dienst anwenden

1.1 Ausgewogenes Verhältnis zwischen Änderungen, Geschwindigkeit und Zuverlässigkeit des Diensts schaffen:

    a. SLIs finden (z. B. Verfügbarkeit, Latenz)

b. SLOs definieren und SLAs verstehen

    c. Maßnahmen bei Überschreitung des Fehlerbudgets vereinbaren

    d. Feedback-Loops als Inspirationsquelle für neue Entwicklungen erstellen

    e. Weniger Aufwand durch Automatisierung

1.2 Dienstlebenszyklus verwalten:

    a. Dienste verwalten (z. B. Dienste einführen, bereitstellen, verwalten und deaktivieren)

b. Kapazität planen (z. B. Kontingente und Limits)

1.3 Für stabile Kommunikation und Zusammenarbeit bei Prozessen sorgen:

    a. Burnout vermeiden (z. B. Prozesse automatisieren, um Überlastungen zu verhindern)

b. Lernkultur fördern

    c. Kultur der Schuldlosigkeit fördern

Bereich 2. CI/CD-Pipelines für einen Dienst erstellen und implementieren

2.1 CI/CD-Pipelines entwickeln:

    a. Unveränderliche Artefakte mit Artifact Registry erstellen und speichern

b. Bereitstellungsstrategien mit Cloud Build und Spinnaker

    c. Bereitstellung in Hybrid- und Multi-Cloud-Umgebungen mit Anthos, Spinnaker und Kubernetes

    d. Strategie der Artefaktversionsverwaltung mit Cloud Build und Artifact Registry

    e. CI/CD-Pipeline-Trigger mit Cloud Source Repositories, externem SCM und Pub/Sub

    f. Neue Version mit Spinnaker testen

    g. Bereitstellungsprozesse konfigurieren (z. B. Genehmigungsabläufe)

2.2 CI/CD-Pipelines implementieren:

    a. CI mit Cloud Build

b. CD mit Cloud Build

c. Open-Source-Tools (z. B. Jenkins, Spinnaker, GitLab, Concourse)

    d. Bereitstellungen prüfen und verfolgen (z. B. CSR, Artifact Registry, Cloud Build, Cloud Audit Logs)

2.3 Konfiguration und Secrets verwalten:

    a. Sichere Speichermethoden

b. Secret-Rotation und Konfigurationsänderungen

2.4 Infrastruktur als Code verwalten:

    a. Terraform

b. Infrastrukturcode versionieren

    c. Änderungen der Infrastruktur sicherer gestalten

    d. Nicht veränderbare Architektur

2.5 CI/CD-Tools bereitstellen:

    a. Zentralisierte Tools oder mehrere Tools (ein oder mehrere Mandanten)

b. Sicherheit von CI/CD-Tools

2.6 Unterschiedliche Entwicklungsumgebungen verwalten (z. B. Staging, Produktion usw.):

    a. Anzahl der Umgebungen und deren Zweck festlegen

b. Mit GKE dynamisch Umgebungen pro Feature-Branch erstellen

    c. Lokale Entwicklungsumgebungen mit Docker, Cloud Code und Skaffold

2.7 Bereitstellungspipeline schützen:

    a. Analyse von Sicherheitslücken mit Artifact Registry

b. Binärautorisierung

    c. IAM-Richtlinien pro Umgebung

Bereich 3. Monitoring-Strategien für Dienste implementieren

3.1 Anwendungslogs verwalten:

    a. Logs von Compute Engine und GKE mit Cloud Logging und Fluentd erfassen

b. Logs von Drittanbietern und strukturierte Logs mit Cloud Logging und Fluentd erfassen

    c. Anwendungslogs direkt an die Cloud Logging API senden

3.2 Anwendungsmesswerte mit Cloud Monitoring verwalten:

    a. Messwerte von Compute Engine erfassen

b. GKE/Kubernetes-Messwerte erfassen

    c. Metrics Explorer für Ad-hoc-Messwertanalysen verwenden

3.3 Cloud Monitoring-Plattform verwalten:

    a. Monitoring-Dashboard erstellen

b. Dashboards filtern und teilen

    c. Benachrichtigungen von Drittanbietern in Cloud Monitoring konfigurieren (z. B. PagerDuty, Slack)

    d. Benachrichtigungsrichtlinien basierend auf SLIs mit Cloud Monitoring definieren

    e. Definition der Benachrichtigungsrichtlinie mit Terraform automatisieren

    f. SLO-Monitoring und -Benachrichtigung mit Cloud Monitoring implementieren

    g. Grundlegendes zu Cloud Monitoring-Integrationen (z. B. Grafana, BigQuery)

    h. Mit SIEM-Tools Audit-/Flusslogs analysieren (z. B. Splunk, Datadog)

    i. Cloud Monitoring-Messwertbereiche entwerfen

3.4 Cloud Logging-Plattform verwalten:

    a. Datenzugriffslogs aktivieren (z. B. Cloud-Audit-Logs)

b. VPC-Flusslogs aktivieren

    c. Logs in der Google Cloud Console ansehen

    d. Einfache oder erweiterte Filter verwenden

    e. Logbasierte Messwerte implementieren

    f. Logging-Ausschluss und -Export verstehen

    g. Optionen für Logging-Export auswählen

    h. Export auf Projekt- oder Organisationsebene implementieren

i. Exportlogs in Cloud Storage und BigQuery ansehen

j. Logs an externe Logging-Plattform senden

3.5 Logging- und Monitoring-Zugriffskontrollen implementieren:

    a. Mit ACL Zugriff auf Audit-Logs mit IAM und Cloud Logging einschränken

b. Mit ACL Exportkonfiguration mit IAM und Cloud Logging einschränken

    c. Mit ACL das Schreiben benutzerdefinierter Messwerte mit IAM und Cloud Monitoring zulassen

Bereich 4. Leistung von Diensten optimieren

4.1 Leistungsprobleme bei Diensten ermitteln

    a. Auswirkungen auf Nutzer bewerten

b. Mit der Operations-Suite von Google Cloud die Cloud-Ressourcennutzung ermitteln

    c. Mit Cloud Trace und Cloud Profiler ein Leistungsprofil erstellen

    d. Service Mesh-Telemetrie interpretieren

    e. Image-/Betriebssystemfehler beheben

    f. Netzwerkprobleme beheben (z. B. VPC-Flusslogs, Firewalllogs, Latenz, Netzwerkdetails ansehen)

4.2 Fehler in Anwendungscode beheben:

    a. Anwendungsinstrumentierung

b. Cloud Debugger

    c. Cloud Logging

    d. Cloud Trace

    e. Fehler in verteilten Anwendungen beheben

    f. Lokaler App Engine-Entwicklungsserver

    g. Error Reporting

    h. Cloud Profiler

4.3 Ressourcennutzung optimieren:

    a. Ressourcenkosten ermitteln

b. Nutzungsgrad von Ressourcen ermitteln

    c. Plan zur Optimierung der Bereiche mit den höchsten Kosten oder der geringsten Nutzung entwickeln

    d. Auf Abruf bereitgestellte VMs verwalten

    e. Rabatte für zugesicherte Nutzung nutzen

    f. Hinweise zu TCO (Sicherheit, Logging, Netzwerk)

    g. Netzwerkpreise berücksichtigen

Bereich 5. Dienstvorfälle verwalten

5.1 Während Dienstvorfällen Rollen koordinieren und Kommunikationskanäle implementieren:

    a. Rollen definieren (Incident Commander, Communication Lead, Operations Lead)

b. Anfragen zur Bewertung von Auswirkungen verarbeiten

    c. Regelmäßige interne und externe Statusaktualisierungen bereitstellen

    d. Wichtige Änderungen im Vorfallstatus erfassen (z. B. Wann gemindert? Wann ist alles klar?)

    e. Kommunikationskanäle einrichten (z. B. E-Mail, IRC, Hangouts, Slack, Telefon)

    f. Reaktionsteam skalieren und delegieren

    g. Erschöpfung/Burnout vermeiden

    h. Rollen rotieren/übergeben

    i. Beziehungen zwischen Stakeholdern verwalten

5.2 Vorfallssymptome untersuchen, die sich auf Nutzer auswirken:

    a. Mögliche Ursachen für Dienstausfälle ermitteln

b. Symptome und mögliche Ursachen bewerten, Wahrscheinlichkeit von Ursachen anhand des beobachteten Verhaltens einstufen

    c. Wahrscheinlichste tatsächliche Ursache untersuchen und isolieren

    d. Alternativen zur Minderung von Problemen ermitteln

5.3 Auswirkung von Vorfällen auf Nutzer mindern

    a. Release-Rollback durchführen

b. Traffic senken/umleiten

    c. Testfunktion deaktivieren

    d. Kapazität hinzufügen

5.4 Probleme mit Deployments beheben (z. B. Cloud Build, Jenkins):

    a. Code ändern/Programmfehler beheben

b. Fehlerbehebung prüfen

    c. Fehlerbehebung bestätigen

5.5 Problem in Postmortem dokumentieren:

    a. Ursachen dokumentieren

b. Aufgaben festlegen und priorisieren

    c. Postmortem an Stakeholder kommunizieren