Professional Machine Learning Engineer

職務の説明

Professional Machine Learning Engineer は、Google Cloud テクノロジーに加え、実績のある ML モデルと技術の知識を使用して、ビジネス上の課題を解決する ML モデルを設計、ビルド、製品化します。ML エンジニアは他の職種と密接に連携して、長期にわたるモデルの適切な運用を実現します。ML エンジニアがこの認定資格を取得するには、ML モデルのアーキテクチャ、データ パイプライン内のインタラクション、指標の解釈方法の全般に加え、アプリケーション開発、インフラストラクチャ管理、データ エンジニアリング、セキュリティに精通している必要があります。モデルのトレーニング、再トレーニング、デプロイ、スケジュール、モニタリング、改良について理解し、最適なパフォーマンスを実現するためのスケーラブルなソリューションを設計して作成します。

認定試験ガイド

セクション 1: ML 問題の枠組み

    1.1 ビジネスの課題を ML のユースケースに変換。以下のような点を考察します。

    • ビジネスの問題の定義
    • ML 以外のソリューションの特定
    • 出力の使用方法の定義
    • 不適切な結果の管理
    • データソースの特定

    1.2 ML 問題の定義。以下のような点を考察します。

    • 問題の種類の定義(分類、回帰、クラスタリングなど)
    • モデル予測の結果の定義
    • 入力(特徴)と予測される出力形式の定義

    1.3 ビジネスの成功基準の定義。以下のような点を考察します。

    • 成功の指標
    • 重要な結果
    • モデルが失敗したとみなすタイミングの決定

    1.4 ML ソリューションの実現の可能性と実装に関するリスクの特定。以下のような点を考察します。

    • ビジネスへの影響の評価と伝達
    • ML ソリューションの準備の評価
    • データの準備の評価
    • Google AI の原則と実践とのすり合わせ(バイアスが異なる場合など)

セクション 2: ML ソリューション アーキテクチャ

    2.1 信頼性が高く、スケーラブルで高可用性な ML ソリューションの設計。以下のような点を考察します。

    • データの使用とストレージの最適化
    • データ接続
    • データの準備とモデルのトレーニング、デプロイの自動化
    • SDLC のベスト プラクティス

    2.2 適切な Google Cloud ソフトウェア コンポーネントの選択。以下のような点を考察します。

    • さまざまなコンポーネント タイプ - データ コレクション、データ管理
    • 原因探索と分析
    • 特徴量エンジニアリング
    • ロギングと管理
    • 自動化
    • モニタリング
    • サービス提供

    2.3 適切な Google Cloud ハードウェア コンポーネントの選択。以下のような点を考察します。

    • コンポーネントの割り当ての選択、コンポーネントのコンピューティングやアクセラレータの選択

    2.4 規制およびセキュリティ上の考慮事項に準拠するアーキテクチャの設計。
    以下のような点を考察します。

    • 安全な ML システムの構築
    • データ使用におけるプライバシーの侵害
    • 規制に関する潜在的な問題の特定

セクション 3: データの準備と処理

    3.1 データの取り込み。以下のような点を考察します。

    • 各種ファイル形式の取り込み(csv、json、img、parquet、データベース、Hadoop/Spark など)
    • データベースの移行
    • データのストリーミング(IoT デバイスなどから)

    3.2 データ探索(EDA)。以下のような点を考察します。

    • 可視化
    • 大規模な統計情報の基礎知識
    • データ品質と実現可能性の評価

    3.3 データ パイプラインの設計。以下のような点を考察します。

    • 大規模なデータ パイプラインのバッチ処理とストリーミング
    • データのプライバシーとコンプライアンス
    • デプロイしたパイプラインのモニタリングと変更

    3.4 データ パイプラインの構築。以下のような点を考察します。

    • データの検証
    • 欠損データの処理
    • 外れ値の処理
    • 大きなサンプルの管理(TFRecords)
    • 変換(TensorFlow 変換)

    3.5 特徴量エンジニアリング。以下のような点を考察します。

    • データ漏洩と拡大
    • 構造化データ型のエンコード
    • 特徴選択
    • クラスの不均衡
    • 特徴断面

セクション 4: ML モデル開発

    4.1 モデルの構築。以下のような点を考察します。

    • フレームワークとモデルの選択
    • 解釈可能性要件のあるモデル手法
    • 転移学習
    • モデルの一般化
    • 過剰適合

    4.2 モデルのトレーニング。以下のような点を考察します。

    • 製品化
    • 異なる環境でジョブとしてモデルをトレーニング
    • トレーニング中の指標のトラッキング
    • 再トレーニングと再デプロイの評価

    4.3 モデルのテスト。以下のような点を考察します。

    • モデルのトレーニングとサービス提供に関する単体テスト
    • ベースライン、シンプルなモデル、時間枠に対するモデルのパフォーマンス
    • Cloud AI Platform でのモデルの説明可能性

    4.4 モデルのトレーニングとサービス提供のスケーリング。以下のような点を考察します。

    • 分散トレーニング
    • ハードウェア アクセラレータ
    • スケーラブルなモデル分析(例: Cloud Storage の出力ファイル、Dataflow、BigQuery、Google データポータルなど)

セクション 5: ML パイプラインの自動化とオーケストレーション

    5.1 パイプラインの設計。以下のような点を考察します。

    • コンポーネント、パラメータ、トリガー、コンピューティングのニーズの特定
    • オーケストレーション フレームワーク
    • ハイブリッド戦略またはマルチクラウド戦略

    5.2 トレーニング パイプラインの実装。以下のような点を考察します。

    • Cloud Build によるコンポーネントの分離
    • パラメータ化されたパイプライン定義の SDK での構築とテスト
    • コンピューティング パフォーマンスの調整
    • データ検証の実行
    • データおよび生成されるアーティファクトの保存

    5.3 サービス パイプラインの実装。以下のような点を考察します。

    • モデルのバイナリ オプション
    • Google Cloud が提供するオプション
    • ターゲット パフォーマンスのテスト
    • トリガーおよびパイプライン スケジュールの設定

    5.4 メタデータのトラッキングと監査。以下のような点を考察します。

    • 組織およびトラッキングのテストとパイプラインの実行
    • モデルおよびデータセットのバージョンの指定
    • モデルおよびデータセットのリネージ

    5.5 CI / CD を使用したモデルのテストとデプロイ。以下のような点を考察します。

    • 既存の CI/CD デプロイメント システムへのモデルの指定
    • A/B テストとカナリアテスト

セクション 6: ML ソリューションのモニタリング、最適化、メンテナンス

    6.1 ML ソリューションのモニタリング。以下のような点を考察します。

    • ML モデルの予測のパフォーマンスとビジネス品質
    • ロギング戦略
    • 継続評価指標の確立

    6.2 ML ソリューションのトラブルシューティング。以下のような点を考察します。

    • 権限に関する問題(IAM)
    • 一般的なトレーニングとサービス提供エラー(TensorFlow)
    • ML システムの失敗とバイアス

    6.3 本番環境でトレーニングとサービス提供を行うための ML ソリューションのパフォーマンスの調整。以下のような点を考察します。

    • トレーニング用の入力パイプラインの最適化と簡素化
    • 使いやすい手法
    • 適切な再トレーニング ポリシーの特定