Wir bieten Ihnen über Innovators Plus einen Zertifizierungsgutschein, Zugriff auf On-Demand-Schulungen und 500 $ Google Cloud-Guthaben. Alle Vorteile ansehen

Professional Data Engineer

Prüfungsleitfaden

Ein Professional Data Engineer erhebt Daten, wandelt sie um und stellt sie zur Verfügung, um sie für andere nutzbar und wertvoll zu machen. Diese Person bewertet und wählt Produkte und Dienste aus, um geschäftliche und behördliche Anforderungen zu erfüllen. Ein Professional Data Engineer erstellt und verwaltet robuste Datenverarbeitungssysteme. Dazu gehört die Möglichkeit, Datenverarbeitungsarbeitslasten zu entwerfen, zu erstellen, bereitzustellen, zu überwachen, zu warten und zu schützen.


Abschnitt 1: Datenverarbeitungssysteme entwerfen (ca. 22% der Prüfung)

1.1 Entwicklung an Sicherheit und Compliance orientieren. Folgende Punkte gehören dazu: 

    ●  Identity and Access Management (z. B. Cloud IAM und Organisationsrichtlinien)

    ●  Datensicherheit (Verschlüsselung und Schlüsselverwaltung)

    ●  Datenschutz (z. B. personenidentifizierbare Informationen und Cloud Data Loss Prevention API)

    ●  Regionale Überlegungen (Datenhoheit) für Datenzugriff und -speicherung

    ●  Einhaltung von Gesetzen und Bestimmungen

1.2 Zuverlässigkeit und Genauigkeit in Entwicklung einbeziehen. Folgende Punkte gehören dazu:

    ●  Vorbereiten und Bereinigen von Daten (z. B. Dataprep, Dataflow und Cloud Data Fusion)

    ●  Monitoring und Orchestrierung von Datenpipelines

    ●  Notfallwiederherstellung und Fehlertoleranz

    ●  Entscheidungen hinsichtlich Compliance und Verfügbarkeit von ACID (Atomarität, Konsistenz, Isolation und Langlebigkeit) treffen

    ●  Datenvalidierung

1.3 Flexibilität und Portabilität entwickeln. Folgende Punkte gehören dazu:

    ●  Abbilden aktueller und zukünftiger Geschäftsanforderungen der Architektur

    ●  Berücksichtigung der Portierbarkeit von Daten und Anwendungen (z. B. Multi-Cloud, Anforderungen an den Datenstandort)

    ●  Data Staging, Datenkatalogisierung und -ermittlung (Data Governance)

1.4 Datenmigrationen entwerfen. Folgende Punkte gehören dazu:

    ●  Analyse der aktuellen Bedürfnisse der Stakeholder, von Nutzern, Prozessen und Technologien und Erstellung eines Plans zum Erreichen des gewünschten Zustands

    ●  Migration zu Google Cloud planen (z. B. BigQuery Data Transfer Service, Database Migration Service, Transfer Appliance, Google Cloud-Netzwerk, Datastream)

    ●  Strategie zur Migrationsvalidierung entwerfen

    ●  Projekt-, Dataset- und Tabellenarchitektur für eine ordnungsgemäße Data Governance entwerfen

Abschnitt 2: Daten aufnehmen und verarbeiten (ca. 25% der Prüfung)

2.1 Datenpipelines planen. Folgende Punkte gehören dazu:

    ●  Datenquellen und -senken definieren

    ●  Datentransformationslogik definieren

    ●  Grundlagen des Networkings

    ●  Datenverschlüsselung

2.2 Pipelines erstellen. Folgende Punkte gehören dazu:

    ●  Datenbereinigung

    ●  Identifizierung der Dienste (z. B. Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, Hadoop und Apache Kafka)

    ●  Transformationen

        ○  Batch

        ○  Streaming (z. B. Windowing, spät ankommende Daten)

        ○  Sprache

        ○  Ad-hoc-Datenaufnahme (einmalige oder automatisierte Pipeline)

    ●  Datenerfassung und -import

    ●  Verknüpfung mit neuen Datenquellen 

2.3 Pipelines bereitstellen und operationalisieren. Folgende Punkte gehören dazu:

    ●  Jobautomatisierung und -orchestrierung (z. B. Cloud Composer und Workflows)

    ●  CI/CD (Continuous Integration und Continuous Deployment)

Abschnitt 3: Daten speichern (ca. 20% der Prüfung)

3.1 Speichersysteme auswählen. Folgende Punkte gehören dazu:

    ●  Datenzugriffsmuster analysieren

    ●  Verwaltete Dienste auswählen (z. B. Bigtable, Cloud Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)

    ●  Planung der Speicherkosten und Leistung

    ●  Verwaltung des Datenlebenszyklus

3.2 Verwendung eines Data Warehouse planen. Folgende Punkte gehören dazu:

    ●  Design des Datenmodells

    ●  Grad der Datennormalisierung festlegen

    ●  Zuordnung der Geschäftsanforderungen

    ●  Architektur zur Unterstützung von Datenzugriffsmustern definieren

3.3 Data Lake verwenden. Folgende Punkte gehören dazu:

    ●  Lake verwalten (Datenerkennung, Zugriff und Kostenkontrolle konfigurieren)

    ●  Daten verarbeiten

    ●  Data Lake überwachen

3.4 Für ein Data Mesh entwickeln. Folgende Punkte gehören dazu:

    ●  Basierend auf den Anforderungen ein Data Mesh erstellen, indem Sie Google Cloud-Tools verwenden (z. B. Dataplex, Data Catalog, BigQuery, Cloud Storage)

    ●  Segmentierung von Daten für eine verteilte Teamnutzung

    ●  Föderiertes Governance-Modell für verteilte Datensysteme erstellen

Abschnitt 4: Daten vorbereiten und für die Analyse verwenden (ca. 15% der Prüfung)

4.1 Daten für die Visualisierung vorbereiten. Folgende Punkte gehören dazu:

    ●  Verbindung zu Tools herstellen

    ●  Vorberechnen von Feldern

    ●  Materialisierte BigQuery-Ansichten (Logik ansehen)

    ●  Granularität von Zeitdaten bestimmen

    ●  Fehlerbehebung bei Abfragen mit geringer Leistung

    ●  Identity and Access Management (IAM) und Cloud Data Loss Prevention (Cloud DLP)

4.2 Daten freigeben. Folgende Punkte gehören dazu:

    ●  Regeln für den Datenaustausch definieren

    ●  Datasets veröffentlichen

    ●  Berichte und Visualisierungen veröffentlichen

    ●  Analytics Hub

4.3 Daten explorieren und analysieren. Folgende Punkte gehören dazu:

    ●  Vorbereiten von Daten für Feature Engineering (Training und Bereitstellung von Modellen für maschinelles Lernen)

    ●  Datenerkennung durchführen

Abschnitt 5: Datenarbeitslasten verwalten und automatisieren (ca. 18% der Prüfung)

5.1 Ressourcen optimieren. Folgende Punkte gehören dazu:

    ●  Minimierung der Kosten pro erforderlichem Geschäftsbedarf an Daten

    ●  Sicherstellen, dass genügend Ressourcen für geschäftskritische Datenprozesse verfügbar sind

    ●  Entscheidung zwischen persistenten oder jobbasierten Datenclustern (z. B. Dataproc)

5.2 Automatisierung und Wiederholbarkeit entwerfen. Folgende Punkte gehören dazu:

    ●  Gerichtete azyklische Graphen (DAGs) für Cloud Composer erstellen

    ●  Wiederholbare Planung von Jobs

5.3 Arbeitslasten basierend auf Geschäftsanforderungen organisieren. Folgende Punkte gehören dazu:

    ●  Flex-, On-Demand- und Pauschalpreis-Slotpreise (Index nach Flexibilität oder fester Kapazität)

    ●  Interaktive oder Batch-Abfragejobs

5.4 Überwachungs- und Fehlerbehebungsprozesse. Folgende Punkte gehören dazu:

    ●  Beobachtbarkeit von Datenprozessen (z. B. Cloud Monitoring, Cloud Logging, BigQuery-Admin-Bereich)

    ●  Überwachung der geplanten Nutzung

    ●  Fehlerbehebung bei Fehlermeldungen, Abrechnungsproblemen und Kontingenten

    ●  Verwalten von Arbeitslasten, z. B. Jobs, Abfragen und Rechenkapazität (Reservierungen).

5.5 Bewusstsein für Fehler wahren und Auswirkungen mindern. Folgende Punkte gehören dazu:

    ●  Ein System für Fehlertoleranz entwickeln und Neustarts verwalten

    ●  Ausführen von Jobs in mehreren Regionen oder Zonen

    ●  Vorbereitung auf Datenbeschädigung und fehlende Daten

    ●  Datenreplikation und Failover (z. B. Cloud SQL-, Redis-Cluster)