Bénéficiez d'un coupon de certification, d'un accès à toutes les formations à la demande et de 500 $ de crédits Google Cloud grâce au programme Innovators Plus. Découvrez tous les avantages.

Professional Data Engineer

Guide de l'examen de certification

Un Professional Data Engineer rend les données utilisables et utiles pour d'autres en recueillant, en transformant et en publiant des données. Il évalue et sélectionne les produits et services en fonction des exigences commerciales et réglementaires. Il crée et gère des systèmes robustes de traitement de données. Il doit être capable de concevoir, compiler, déployer, surveiller, gérer et sécuriser des charges de travail de traitement des données.


Section 1 : Concevoir des systèmes de traitement de données (environ 22 % de l'examen)

1.1 Concevoir des solutions sécurisées et conformes. Points abordés :

    ●  Identity and Access Management (par exemple, Cloud IAM et règles d'administration)

    ●  Sécurité des données (chiffrement et gestion des clés)

    ●  Confidentialité (par exemple, informations permettant d'identifier personnellement l'utilisateur et API Cloud Data Loss Prevention)

    ●  Considérations régionales (souveraineté des données) pour l'accès aux données et leur stockage

    ●  Conformité juridique et réglementaire

1.2 Concevoir dans un souci de fiabilité et de fidélité. Voici quelques points à prendre en compte :

    ●  Préparation et nettoyage des données (par exemple, Dataprep, Dataflow et Cloud Data Fusion)

    ●  Surveillance et orchestration des pipelines de données

    ●  Reprise après sinistre et tolérance aux pannes

    ●  Prise de décisions liées à la conformité et à la disponibilité ACID (atomicité, cohérence, isolation et durabilité)

    ●  Validation des données

1.3 Concevoir la flexibilité et la portabilité. Voici quelques points à prendre en compte :

    ●  Faire correspondre les besoins actuels et futurs à l'architecture

    ●  Conception orientée sur la portabilité des données et des applications (par exemple, multicloud, exigences de résidence des données)

    ●  Préproduction, catalogue et découverte des données (gouvernance des données)

1.4 Concevoir des migrations de données. Voici quelques points à prendre en compte :

    ●  Analyser les besoins actuels des personnes concernées, les utilisateurs, les processus et les technologies, et élaborer un plan pour atteindre l'état souhaité

    ●  Planifier la migration vers Google Cloud (par exemple, service de transfert de données BigQuery, Database Migration Service, Transfer Appliance, mise en réseau Google Cloud, Datastream)

    ●  Concevoir la stratégie de validation de la migration

    ●  Concevoir l'architecture du projet, de l'ensemble de données et des tables pour garantir une gouvernance des données appropriée

Section 2 : Ingérer et traiter des données (environ 25 % de l'examen)

2.1 Planifier les pipelines de données. Points abordés :

    ●  Définir les sources et les récepteurs de données

    ●  Définir la logique de transformation des données

    ●  Principes de base de la mise en réseau

    ●  Chiffrement des données

2.2 Créer les pipelines. Voici quelques points à prendre en compte :

    ●  Nettoyage des données

    ●  Identifier les services (par exemple, Dataflow, Apache Beam, Dataproc, Cloud Data Fusion, BigQuery, Pub/Sub, Apache Spark, écosystème Hadoop et Apache Kafka)

    ●  Transformations

        ○  Batch

        ○  Flux continu (par exemple, fenêtrage, données tardives)

        ○  Langages

        ○  Ingestion de données ad hoc (pipeline unique ou automatisé)

    ●  Acquisition et importation des données

    ●  Intégration de nouvelles sources de données

2.3 Déployer et opérationnaliser les pipelines. Voici quelques points à prendre en compte :

    ●  Automatisation et orchestration des jobs (par exemple, Cloud Composer et Workflows)

    ●  CI/CD (intégration et déploiement continus)

Section 3 : Stocker les données (environ 20 % de l'examen)

3.1 Sélectionner des systèmes de stockage. Voici quelques points à prendre en compte :

    ●  Analyser les modèles d'accès aux données

    ●  Choisir des services gérés (par exemple, Bigtable, Cloud Spanner, Cloud SQL, Cloud Storage, Firestore, Memorystore)

    ●  Planifier les coûts et les performances de stockage

    ●  Gestion du cycle de vie des données

3.2 Planifier l'utilisation d'un entrepôt de données. Points abordés :

    ●  Concevoir le modèle de données

    ●  Décider du degré de normalisation des données

    ●  Définir les besoins de l'entreprise

    ●  Définir une architecture compatible avec les modèles d'accès aux données

3.3 Utiliser un lac de données. Voici quelques points à prendre en compte :

    ●  Gérer le lac (configuration de la découverte des données, des accès et du contrôle des coûts)

    ●  Traiter les données

    ●  Surveiller le lac de données

3.4 Concevoir un maillage de données. Voici quelques points à prendre en compte :

    ●  Créer un maillage de données basé sur les exigences à l'aide des outils Google Cloud (par exemple, Dataplex, Data Catalog, BigQuery, Cloud Storage)

    ●  Segmenter les données pour une utilisation en équipe

    ●  Créer un modèle de gouvernance fédéré pour les systèmes de données distribués

Section 4 : Préparer et utiliser les données à des fins d'analyse (environ 15 % de l'examen)

4.1 Préparer les données pour la visualisation. Points abordés :

    ●  Connexion à des outils

    ●  Précalcul des champs

    ●  Vues matérialisées BigQuery (logique d'affichage)

    ●  Détermination de la précision des données temporelles

    ●  Résolution des problèmes de requêtes peu performantes

    ●  Identity and Access Management (IAM) et Cloud Data Loss Prevention (Cloud DLP)

4.2 Partager des données. Voici quelques points à prendre en compte :

    ●  Définition de règles de partage des données

    ●  Publication d'ensembles de données

    ●  Publication de rapports et de visualisations

    ●  Analytics Hub

4.3 Explorer et analyser les données. Points abordés :

    ●  Préparer des données pour l'extraction de caractéristiques (entraînement et inférence de modèles de machine learning)

    ●  Mener la découverte de données

Section 5 : Gérer et automatiser les charges de travail de données (environ 18 % de l'examen)

5.1 Optimiser les ressources. Voici quelques points à prendre en compte :

    ●  Réduire les coûts en fonction des besoins en données de l'entreprise

    ●  S'assurer que suffisamment de ressources sont disponibles pour les processus de données stratégiques

    ●  Choisir entre des clusters de données persistants ou basés sur des jobs (par exemple, Dataproc)

5.2 Concevoir l'automatisation et la reproductibilité. Voici quelques points à prendre en compte :

    ●  Créer des graphes orientés acycliques (DAG) pour Cloud Composer

    ●  Planifier des jobs de manière reproductible

5.3 Organiser les charges de travail en fonction des exigences de l'entreprise. Voici quelques points à prendre en compte :

    ●  Modèles de tarification flexibles, à la demande et forfaitaires (indice de flexibilité ou de capacité fixe)

    ●  Jobs de requête interactifs ou par lot

5.4 Surveiller et dépanner les processus. Voici quelques points à prendre en compte :

    ●  Observabilité des processus de données (par exemple, Cloud Monitoring, Cloud Logging, panneau d'administration BigQuery)

    ●  Surveillance de l'utilisation prévue

    ●  Résolution des problèmes liés aux messages d'erreur, aux problèmes de facturation et aux quotas

    ●  Gestion des charges de travail, telles que les jobs, les requêtes et la capacité de calcul (réservations)

5.5 Maintenir la vigilance sur les défaillances et atténuer leur impact. Voici quelques points à prendre en compte :

    ●  Concevoir un système offrant une tolérance aux pannes et gérer les redémarrages

    ●  Exécuter des jobs dans plusieurs régions ou zones

    ●  Se préparer à la corruption et à la disparition des données

    ●  Répliquer et faire basculer des données (par exemple, Cloud SQL, clusters Redis)