Professional Machine Learning Engineer
Guide de l'examen de certification
Un Professional Machine Learning Engineer conçoit, évalue, met en production et optimise des modèles de ML en s'appuyant sur les technologies Google Cloud, et sur sa connaissance des techniques et modèles éprouvés. Il gère des ensembles de données volumineux et complexes, et crée du code reproductible et réutilisable. Il tient compte de l'IA responsable et de l'équité tout au long du processus de développement des modèles de ML. Il travaille en étroite collaboration avec d'autres équipes pour assurer la réussite à long terme des applications basées sur le ML. Le ML Engineer possède de solides compétences en programmation, et une expérience des plates-formes de données et des outils de traitement des données distribués. Le ML Engineer maîtrise les aspects de l'architecture des modèles, de la création de pipelines de données et de ML, ainsi que de l'interprétation des métriques. En outre, il doit être familier des principes de base du MLOps, du développement d'applications, de la gestion d'infrastructure, de l'ingénierie et de la gouvernance des données. Il rend le ML accessible et aide les équipes de l'entreprise à s'en servir. Le ML Engineer conçoit et crée des solutions évolutives et performantes en entraînant, en réentraînant, en déployant, en planifiant, en surveillant et en améliorant des modèles.
* Remarque : L'examen n'évalue pas directement vos compétences en codage, Si vous possédez des compétences minimales en Python et en Cloud SQL, vous devriez pouvoir interpréter toutes les questions à l'aide d'extraits de code.
Le nouvel examen Professional Machine Learning Engineer sera disponible à partir du 1er octobre. Si vous envisagez de passer l'examen Professional Machine Learning Engineer à partir du 1er octobre, consultez le nouveau guide de l'examen.
Nouveautés :
La prochaine version de l'examen Professional Machine Learning Engineer, qui sera lancée le 1er octobre, couvrira les tâches liées à l'IA générative, y compris la création de solutions d'IA à l'aide de Model Garden et Vertex AI Agent Builder, et l'évaluation des solutions d'IA générative.
Pour en savoir plus sur les services d'IA générative de Google Cloud, accédez à Google Cloud Skills Boost pour découvrir les parcours de formation "Présentation de l'IA générative"(tous publics) ou parcours de formation "Generative AI pour les développeurs" (public technique). Si vous êtes un partenaire, référez-vous aux parcours de formation sur l'IA générative pour les partenaires : parcours de formation "Présentation de l'IA générative", IA générative pour les ingénieurs en ML, et IA générative pour les développeurs.
Pour en savoir plus, reportez-vous aux offres de formation spécifiques à l'IA générative, telles que Découvrir et évaluer des modèles avec Model Garden, le parcours Vertex AI Agent Builder (partenaires), Intégrer la recherche dans les applications à l'aide de Vertex AI Agent Builder et Application de chat générative avec Vertex AI Agent Builder et Dialogflow.
Guides de l'examen
Section 1 : Concevoir des solutions de ML nécessitant peu de code (environ 12 % de l'examen)
1.1 Développer des modèles de ML à l'aide de BigQuery ML. Points à prendre en compte :
● Créer le modèle BigQuery ML approprié (par exemple, classification linéaire et binaire, régression, séries temporelles, factorisation matricielle, arbres de décision à boosting, auto-encodeurs) en fonction de la problématique métier
● Extraire ou sélectionner des caractéristiques avec BigQuery ML
● Générer des prédictions à l'aide de BigQuery ML
1.2 Créer des solutions d'IA à l'aide d'API de ML. Points à prendre en compte :
● Créer des applications à l'aide d'API de ML (par exemple, API Cloud Vision, API Natural Language, API Cloud Speech, Translation)
● Créer des applications à l'aide d'API spécifiques à un secteur d'activité (par exemple, Document AI, API Retail)
1.3 Entraîner des modèles à l'aide d'AutoML. Points abordés :
● Préparer des données pour AutoML (par exemple, sélection de caractéristiques, étiquetage de données, workflows tabulaires sur AutoML)
● Utiliser les données disponibles (par exemple, tabulaires, textuelles, vocales, d'images, de vidéos) pour entraîner des modèles personnalisés
● Utiliser AutoML pour les données tabulaires
● Créer des modèles de prévision à l'aide d'AutoML
● Configurer et déboguer des modèles entraînés
Section 2 : Collaborer au sein des équipes et entre les équipes pour gérer les données et les modèles (environ 16 % de l'examen)
2.1 Explorer et prétraiter les données à l'échelle de l'organisation (par exemple, Cloud Storage, BigQuery, Spanner, Cloud SQL, Apache Spark, Apache Hadoop) Points à prendre en compte :
● Organisation de différents types de données (par exemple, tabulaires, textuelles, vocales, d'images, de vidéos) pour un entraînement efficace
● Gérer des ensembles de données dans Vertex AI
● Prétraiter les données (par exemple, Dataflow, TensorFlow Extended [TFX], BigQuery)
● Créer et consolider des caractéristiques dans Vertex AI Feature Store
● Répercussions sur la confidentialité de l'utilisation et/ou de la collecte de données (par exemple, gestion des données sensibles telles que les informations personnelles [PII] et les données de santé protégées [PHI]))
2.2 Prototyper les modèles à l'aide de notebooks Jupyter. Points à prendre en compte :
● Choisir le backend Jupyter approprié sur Google Cloud (par exemple, Vertex AI Workbench, notebooks sur Dataproc)
● Appliquer les bonnes pratiques de sécurité dans Vertex AI Workbench
● Utiliser des noyaux Spark
● Intégration avec les dépôts sources de code
● Développer des modèles dans Vertex AI Workbench à l'aide de frameworks courants (par exemple, TensorFlow, PyTorch, sklearn, Spark, JAX)
2.3 Suivre et exécuter des tests de ML. Points abordés :
● Choisir l'environnement Google Cloud approprié pour le développement et l'expérimentation (par exemple, Vertex AI Experiments, Kubeflow Pipelines, Vertex AI TensorBoard avec TensorFlow et PyTorch) en fonction du framework
Section 3 : Adapter des prototypes à des modèles de ML (environ 18 % de l'examen)
3.1 Concevoir des modèles. Points à prendre en compte :
● Choisir un framework de ML et une architecture de modèle
● Techniques de modélisation selon les critères d'interprétabilité
3.2 Entraîner les modèles. Voici quelques points à prendre en compte :
● Organiser les données d'entraînement (par exemple, tabulaire, texte, vocal, images, vidéos) sur Google Cloud (par exemple, Cloud Storage, BigQuery)
● Ingérer différents types de fichiers (par exemple, CSV, JSON, images, Hadoop, bases de données) dans les ensembles d'entraînement
● Entraînement à l'aide de différents SDK (par exemple, entraînement personnalisé Vertex AI, Kubeflow sur Google Kubernetes Engine, AutoML, workflows tabulaires)
● Utiliser un entraînement distribué pour organiser des pipelines fiables
● Réglage des hyperparamètres
● Résoudre les problèmes d'entraînement des modèles de ML
3.3 Choisir le matériel approprié pour l'entraînement. Points à prendre en compte :
● Évaluer les options de calcul et d'accélérateur (par exemple, CPU, GPU, TPU, appareils de périphérie)
● Entraînement distribué avec des TPU et des GPU (par exemple, Reduction Server sur Vertex AI, Horovod)
Section 4 : Diffuser et mettre à l'échelle des modèles (environ 19 % de l'examen)
4.1 Déployer des modèles. Voici quelques points à prendre en compte :
● Inférence en ligne et par lot (par exemple, Vertex AI, Dataflow, BigQuery ML, Dataproc)
● Utiliser différents frameworks (par exemple, PyTorch, XGBoost) pour diffuser des modèles
● Organiser un registre de modèles
● Réaliser des tests A/B de différentes versions d'un modèle
4.2 Effectuer le scaling de l'inférence de modèles en ligne. Points abordés :
● Vertex AI Feature Store
● Points de terminaison publics et privés de Vertex AI
● Choisir le matériel approprié (par exemple, CPU, GPU, TPU, appareils de périphérie)
● Effectuer le scaling du backend de diffusion en fonction du débit (par exemple, Vertex AI Prediction, inférence conteneurisée)
● Régler des modèles de ML pour l'entraînement et l'inférence en production (par exemple, techniques de simplification, optimisation de la solution de ML pour améliorer les performances, la latence, la mémoire et le débit)
Section 5 : Automatiser et orchestrer des pipelines de ML (environ 21 % de l'examen)
5.1 Développer des pipelines de ML de bout en bout. Points abordés :
● Effectuer la validation des données et des modèles
● Assurer un prétraitement des données cohérent entre l'entraînement et l'inférence
● Héberger des pipelines tiers sur Google Cloud (par exemple, MLFlow)
● Identifier les composants, les paramètres, les déclencheurs et les besoins en calcul (par exemple, Cloud Build, Cloud Run)
● Framework d'orchestration (par exemple, Kubeflow Pipelines, Vertex AI Pipelines, Cloud Composer)
● Stratégies hybrides ou multicloud
● Concevoir des systèmes avec des composants TFX ou Kubeflow DSL (par exemple, Dataflow)
5.2 Automatiser le réentraînement des modèles. Points abordés :
● Déterminer une règle de réentraînement appropriée
● Déploiement de modèles d'intégration et de livraison continues (CI/CD) (par exemple, Cloud Build, Jenkins)
5.3 Suivre et réaliser un audit des métadonnées. Voici quelques points à prendre en compte :
● Suivi et comparaison des artefacts et des versions des modèles (par exemple, Tests Vertex AI Experiments, Vertex ML Metadata)
● Gestion des versions pour les modèles et les ensembles de données
● Modèle et traçabilité des données
Section 6 : Surveiller des solutions de ML (environ 14 % de l'examen)
6.1 Identifier les risques associés aux solutions de ML. Points abordés :
● Développer des systèmes de ML sécurisés (par exemple, la protection contre l'exploitation involontaire des données ou des modèles, ou le piratage)
● Respecter les pratiques d'IA responsable de Google (par exemple, biais des données)
● Évaluer l'état de préparation de la solution de ML (par exemple, biais des données, équité)
● Explicabilité du modèle sur Vertex AI (par exemple, Vertex AI Prediction)
6.2 Surveiller, tester et dépanner des solutions de ML. Points à prendre en compte :
● Établir des métriques d'évaluation continue (par exemple, Vertex AI Model, Monitoring, Explainable AI)
● Surveiller le décalage entraînement/inférence
● Surveiller la dérive d'attribution des caractéristiques
● Surveiller les performances du modèle au fil du temps par rapport à des références et à des modèles plus simples
● Erreurs courantes d'entraînement et d'inférence
Section 1 : Concevoir des solutions d'IA nécessitant peu de code (13 % de l'examen)
1.1 Développer des modèles de ML à l'aide de BigQuery ML. Points à prendre en compte :
● Créer le modèle BigQuery ML approprié (par exemple, classification linéaire et binaire, régression, séries temporelles, factorisation matricielle, arbres de décision à boosting, auto-encodeurs) en fonction de la problématique métier
● Extraire ou sélectionner des caractéristiques avec BigQuery ML
● Générer des prédictions à l'aide de BigQuery ML
1.2 Créer des solutions d'IA à l'aide des API de ML ou de modèles de fondation. Points abordés :
● Créer des applications à l'aide des API de ML dans Model Garden
● Créer des applications à l'aide d'API spécifiques à un secteur d'activité (par exemple, Document AI, API Retail)
● Mise en œuvre d'applications de génération augmentée par récupération (RAG) à l'aide de Vertex AI Agent Builder
1.3 Entraîner des modèles à l'aide d'AutoML. Points abordés :
● Préparer des données pour AutoML (par exemple, sélection de caractéristiques, étiquetage de données, workflows tabulaires sur AutoML)
● Utiliser les données disponibles (par exemple, tabulaires, textuelles, vocales, d'images, de vidéos) pour entraîner des modèles personnalisés
● Utiliser AutoML pour les données tabulaires
● Créer des modèles de prévision à l'aide d'AutoML
● Configurer et déboguer des modèles entraînés
Section 2 : Collaborer au sein des équipes et entre les équipes pour gérer les données et les modèles (environ 14 % de l'examen)
2.1 Explorer et prétraiter les données à l'échelle de l'organisation (par exemple, Cloud Storage, BigQuery, Spanner, Cloud SQL, Apache Spark, Apache Hadoop) Points à prendre en compte :
● Organisation de différents types de données (par exemple, tabulaires, textuelles, vocales, d'images, de vidéos) pour un entraînement efficace
● Gérer des ensembles de données dans Vertex AI
● Prétraiter les données (par exemple, Dataflow, TensorFlow Extended [TFX], BigQuery)
● Créer et consolider des caractéristiques dans Vertex AI Feature Store
● Répercussions sur la confidentialité de l'utilisation et/ou de la collecte de données (par exemple, gestion des données sensibles telles que les informations personnelles [PII] et les données de santé protégées [PHI]))
● Ingérer différentes sources de données (par exemple, des documents texte) dans Vertex AI pour l'inférence
2.2 Prototyper les modèles à l'aide de notebooks Jupyter Points à prendre en compte :
● Choisir le backend Jupyter approprié sur Google Cloud (par exemple, Vertex AI Workbench, Colab Enterprise, les notebooks sur Dataproc)
● Appliquer les bonnes pratiques de sécurité dans Vertex AI Workbench
● Utiliser des noyaux Spark
● Intégrer des dépôts de code source
● Développer des modèles dans Vertex AI Workbench à l'aide de frameworks courants (par exemple, TensorFlow, PyTorch, sklearn, Spark, JAX)
● Utiliser divers modèles fondamentaux et Open Source dans Model Garden
2.3 Suivre et exécuter des tests de ML. Points abordés :
● Choisir l'environnement Google Cloud approprié pour le développement et l'expérimentation (par exemple, Vertex AI Experiments, Kubeflow Pipelines, Vertex AI TensorBoard avec TensorFlow et PyTorch) en fonction du framework
● Évaluer les solutions d'IA générative
Section 3 : Adapter des prototypes à des modèles de ML (18 % de l'examen)
3.1 Concevoir des modèles. Points à prendre en compte :
● Choisir un framework de ML et une architecture de modèle
● Techniques de modélisation selon les critères d'interprétabilité
3.2 Entraîner les modèles. Voici quelques points à prendre en compte :
● Organiser les données d'entraînement (par exemple, tabulaire, texte, vocal, images, vidéos) sur Google Cloud (par exemple, Cloud Storage, BigQuery)
● Ingérer différents types de fichiers (par exemple, CSV, JSON, images, Hadoop, bases de données) dans les ensembles d'entraînement
● Entraînement de modèles à l'aide de différents SDK (par exemple, entraînement personnalisé Vertex AI, Kubeflow sur Google Kubernetes Engine, AutoML, workflows tabulaires)
● Utiliser un entraînement distribué pour organiser des pipelines fiables
● Réglage des hyperparamètres
● Résoudre les problèmes d'entraînement des modèles de ML
● Affiner des modèles de fondation (par exemple, Vertex AI, Model Garden)
3.3 Choisir le matériel approprié pour l'entraînement. Points à prendre en compte :
● Évaluer les options de calcul et d'accélérateur (par exemple, CPU, GPU, TPU, appareils de périphérie)
● Entraînement distribué avec des TPU et des GPU (par exemple, Reduction Server sur Vertex AI, Horovod)
Section 4 : Diffuser et mettre à l'échelle des modèles (20 % de l'examen)
4.1 Déployer des modèles. Voici quelques points à prendre en compte :
● Inférence en ligne et par lot (par exemple, Vertex AI, Dataflow, BigQuery ML, Dataproc)
● Utiliser différents frameworks (par exemple, PyTorch, XGBoost) pour diffuser des modèles
● Organiser les modèles dans Model Registry
● Réaliser des tests A/B de différentes versions d'un modèle
4.2 Effectuer le scaling de l'inférence de modèles en ligne. Points abordés :
● Gérer et publier des caractéristiques à l'aide de Vertex AI Feature Store
● Déployer des modèles sur des points de terminaison publics et privés
● Choisir le matériel approprié (par exemple, CPU, GPU, TPU, appareils de périphérie)
● Effectuer le scaling du backend de diffusion en fonction du débit (par exemple, Vertex AI Prediction, inférence conteneurisée)
● Régler des modèles de ML pour l'entraînement et l'inférence en production (par exemple, techniques de simplification, optimisation de la solution de ML pour améliorer les performances, la latence, la mémoire et le débit)
Section 5 : Automatiser et orchestrer des pipelines de ML (22 % de l'examen)
5.1 Développer des pipelines de ML de bout en bout. Points abordés :
● Valider les données et les modèles
● Assurer un prétraitement des données cohérent entre l'entraînement et l'inférence
● Héberger des pipelines tiers sur Google Cloud (par exemple, MLFlow)
● Identifier les composants, les paramètres, les déclencheurs et les besoins en calcul (par exemple, Cloud Build, Cloud Run)
● Frameworks d'orchestration (par exemple, Kubeflow Pipelines, Vertex AI Pipelines, Cloud Composer)
● Stratégies hybrides ou multicloud
● Concevoir des systèmes avec des composants TFX ou Kubeflow DSL (par exemple, Dataflow)
5.2 Automatiser le réentraînement des modèles. Points abordés :
● Déterminer une règle de réentraînement appropriée
● Déployer des modèles au sein de pipelines d'intégration continue et de livraison continue (CI/CD) (par exemple, Cloud Build, Jenkins)
5.3 Suivre et réaliser un audit des métadonnées. Voici quelques points à prendre en compte :
● Suivi et comparaison des artefacts et des versions des modèles (par exemple, Tests Vertex AI Experiments, Vertex ML Metadata)
● Gestion des versions pour les modèles et les ensembles de données
● Modèle et traçabilité des données
Section 6 : Surveiller les solutions d'IA (13 % de l'examen)
6.1 Identifier les risques associés aux solutions d'IA Points à prendre en compte :
● Développer des systèmes d'IA sécurisés en protégeant contre l'exploitation involontaire des données ou des modèles (par exemple, le piratage)
● Respecter les pratiques d'IA responsable de Google (par exemple, surveillance des biais)
● Évaluer le niveau de préparation de la solution d'IA (par exemple, l'équité, les biais)
● Explicabilité du modèle sur Vertex AI (par exemple, Vertex AI Prediction)
6.2 Surveiller, tester et dépanner des solutions d'IA. Points à prendre en compte :
● Établir des métriques d'évaluation continue (par exemple, Vertex AI Model, Monitoring, Explainable AI)
● Surveiller le décalage entraînement/inférence
● Surveiller la dérive d'attribution des caractéristiques
● Surveiller les performances du modèle au fil du temps par rapport à des références et à des modèles plus simples
● Surveiller les erreurs courantes d'entraînement et d'inférence