Professional Machine Learning Engineer

Prüfungsleitfaden

Ein Professional Machine Learning Engineer entwickelt und erstellt Modelle für maschinelles Lernen (ML) und bringt sie zur Produktionsreife, um geschäftliche Herausforderungen mithilfe von Google Cloud-Technologien und seinen Kenntnissen über bewährte ML-Modelle und -Verfahren zu lösen. Der ML Engineer berücksichtigt während des ML-Entwicklungsprozesses verantwortungsbewusste KI und arbeitet eng mit anderen Jobrollen zusammen, um den langfristigen Erfolg der Modelle sicherzustellen. Der Machine Learning Engineer sollte mit allen Aspekten der Modellarchitektur, der Datenpipeline-Interaktion und der Interpretation von Messwerten vertraut sein. Der ML Engineer benötigt Kenntnisse in grundlegenden Konzepten der Anwendungsentwicklung, Infrastrukturverwaltung, des Data Engineering und der Data Governance. Anhand von Kenntnissen zu Training, erneutem Training, Bereitstellung, Planung, Monitoring und Verbesserung von Modellen erstellt der ML Entwickler skalierbare Lösungen für eine optimale Leistung.

Abschnitt 1: Grundzüge von ML-Problemen

    1.1 Geschäftliche Herausforderungen in ML-Anwendungsfälle übersetzen. Folgende Punkte gehören dazu:

    • Auswählen der besten Lösung (ML vs. Nicht-ML, benutzerdefiniert vs. vorgepackt [z. B. AutoML, Vision API]), je nach den Geschäftsanforderungen
    • Definieren, wie die Modellausgabe zur Lösung des Geschäftsproblems verwendet werden soll
    • Entscheiden, wie fehlerhafte Ergebnisse behandelt werden sollen
    • Datenquellen identifizieren (verfügbar vs. ideal)

    1.2 ML-Probleme definieren. Folgende Punkte gehören dazu:

    • Problemtyp (z. B. Klassifizierung, Regression, Clustering)
    • Ergebnis der Modellvorhersagen
    • Eingabe (Features) und vorhergesagtes Ausgabeformat

    1.3 Kriterien für den geschäftlichen Erfolg festlegen. Folgende Punkte gehören dazu:

    • Ausrichtung von ML-Erfolgsmesswerten auf das Geschäftsproblem
    • Wichtigste Ergebnisse
    • Kriterien, an denen sich erkennen lässt, wann ein Modell nicht erfolgreich ist

    1.4 Risiken für die Umsetzbarkeit von ML-Lösungen identifizieren. Folgende Punkte gehören dazu:

    • Auswirkungen auf das Unternehmen bewerten und kommunizieren
    • Bereitschaft der ML-Lösung bewerten
    • Beurteilung der Datenbereitschaft und möglicher Einschränkungen
    • Abstimmung auf verantwortungsbewusste Vorgehensweisen von Google in Bezug auf KI (z. B. verschiedene Verzerrungen)

Abschnitt 2: ML-Lösungen entwickeln

    2.1 Zuverlässige, skalierbare und hochverfügbare ML-Lösungen entwickeln. Folgende Punkte gehören dazu:

    • Auswahl geeigneter ML-Dienste für den jeweiligen Anwendungsfall (z. B. Cloud Build, Kubeflow)
    • Komponententypen (z. B. Datenerfassung, Datenverwaltung)
    • Explorative Datenanalyse
    • Feature Engineering
    • Logging/Verwaltung
    • Automatisierung
    • Orchestrierung
    • Monitoring
    • Serving

    2.2 Geeignete Google Cloud-Hardwarekomponenten auswählen. Folgende Punkte gehören dazu:

    • Evaluierung von Computing- und Beschleunigeroptionen (z. B. CPU, GPU, TPU, Edge-Geräte)

    2.3 Entwerfen einer Architektur, die den Sicherheitsanforderungen verschiedener Sektoren/Branchen entspricht. Folgende Punkte gehören dazu:

    • Aufbau sicherer ML-Systeme (z. B. Schutz vor unbeabsichtigter Ausnutzung von Daten/Modellen, Hacking)
    • Auswirkungen der Datennutzung und/oder -erfassung auf den Datenschutz (z. B. Umgang mit sensiblen Daten wie personenidentifizierbare Informationen [PII] und geschützten Gesundheitsdaten [PHI])

Abschnitt 3: Systeme zur Datenaufbereitung und -verarbeitung entwerfen

    3.1 Daten untersuchen (EDA). Folgende Punkte gehören dazu:

    • Visualisierung
    • Statistische Grundlagen im großen Maßstab
    • Evaluierung der Datenqualität und der Umsetzbarkeit
    • Dateneinschränkungen festlegen (z. B. TFDV)

    3.2 Datenpipelines erstellen. Folgende Punkte gehören dazu:

    • Trainings-Datasets organisieren und optimieren
    • Datenvalidierung
    • Umgang mit fehlenden Daten
    • Umgang mit Ausreißern
    • Datenlecks

    3.3 Eingabefeatures erstellen (Feature Engineering). Folgende Punkte gehören dazu:

    • Gewährleistung einer konsistenten Datenvorverarbeitung zwischen Training und Bereitstellung
    • Codierung strukturierter Datentypen
    • Auswahl von Merkmalen
    • Klassenungleichgewicht
    • Featureverknüpfungen
    • Transformationen (TensorFlow Transform)

Abschnitt 4: ML-Modelle entwickeln

    4.1 Erstellung von Modellen. Folgende Punkte gehören dazu:

    • Auswahl von Framework und Modell
    • Modellierungstechniken abhängig von den Anforderungen an die Interpretierbarkeit
    • Lerntransfer
    • Datenerweiterung
    • Halbüberwachtes Lernen
    • Modellverallgemeinerung und Strategien zum Umgang mit Überanpassung und Unteranpassung

    4.2 Modelle trainieren. Folgende Punkte gehören dazu:

    • Aufnahme verschiedener Dateitypen in das Training (z. B. CSV, JSON, IMG, Parquet oder Datenbanken, Hadoop/Spark)
    • Modell als Job in verschiedenen Umgebungen trainieren
    • Hyperparameter-Feinabstimmung
    • Messwerte während des Trainings verfolgen
    • Erneutes Trainieren/Bereitstellen evaluieren

    4.3 Modelle testen. Folgende Punkte gehören dazu:

    • Unittests für das Trainieren und Bereitstellen des Modells
    • Leistung des Modells im Vergleich zu Referenzmodellen, einfacheren Modellen und im Zeitverlauf
    • Erklärbarkeit des Modells in AI Platform

    4.4 Training und Bereitstellen des Modells skalieren. Folgende Punkte gehören dazu:

    • Verteiltes Training
    • Skalierung des Vorhersagedienstes (z. B., AI Platform Prediction, containerisierte Bereitstellung)

Abschnitt 5: ML-Pipelines automatisieren und orchestrieren

    5.1 Trainingspipelines entwerfen und implementieren. Folgende Punkte gehören dazu:

    • Identifizieren von Komponenten, Parametern, Triggern und Computing-Anforderungen (z. B. Cloud Build, Cloud Run)
    • Orchestrierungs-Framework (z. B. Kubeflow Pipelines/AI Platform Pipelines, Cloud Composer/Apache Airflow)
    • Hybrid- oder Multi-Cloud-Strategien
    • Systemdesign mit TFX-Komponenten/Kubeflow DSL

    5.2 Bereitstellungspipelines implementieren. Folgende Punkte gehören dazu:

    • Bereitstellung (Online, Batch, Caching)
    • Google Cloud-Bereitstellungsoptionen
    • Tests der Leistung der Zielsysteme
    • Trigger- und Pipelinezeitpläne konfigurieren

    5.3 Metadaten verfolgen und prüfen. Folgende Punkte gehören dazu:

    • Tests und Pipelineausführungen organisieren und verfolgen
    • Mit Modell- und Dataset-Versionsverwaltung verknüpfen
    • Modell-/Dataset-Herkunft

Abschnitt 6: Monitoring, Optimierung und Wartung von ML-Lösungen

    6.1 ML-Lösungen überwachen und Fehler beheben. Folgende Punkte gehören dazu:

    • Leistung und Qualität der ML-Modellvorhersagen für das Unternehmen
    • Logging-Strategien
    • Festlegen von Messwerten für die kontinuierliche Evaluierung (z. B. Evaluierung von Drift oder Verzerrung)
    • Berechtigungsmodell von Google Cloud
    • Geeignete Richtlinie für erneutes Trainieren erarbeiten
    • Häufige Trainings- und Bereitstellungsfehler (TensorFlow)
    • Ausfälle des ML-Modells und resultierende Verzerrungen

    6.2 Leistung von ML-Lösungen für Training und Bereitstellung in der Produktion anpassen. Folgende Punkte gehören dazu:

    • Eingabepipeline für das Training optimieren und vereinfachen
    • Vereinfachungsmethoden