Professional Data Engineer

認定試験ガイド

Professional Data Engineer は、データを収集、変換、公開して、データに基づく意思決定ができるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングもできなければなりません。

1. データ処理システムの設計

    1.1 適切なストレージ テクノロジーを選択する。以下のような点を考察します。

    • ストレージ システムとビジネス要件のマッピング
    • データ モデリング
    • レイテンシ、スループット、トランザクションに関係するトレードオフ
    • 分散システム
    • スキーマの設計

    1.2 データ パイプラインを設計する。以下のような点を考察します。

    • データの公開と可視化(例: BigQuery)
    • データのバッチとストリーミング(例: Cloud Dataflow、Cloud Dataproc、Apache Beam、Apache Spark / Hadoop エコシステム、Cloud Pub/Sub、Apache Kafka)
    • オンライン(インタラクティブ)とバッチ予測
    • ジョブの自動化とオーケストレーション(例: Cloud Composer)

    1.3 データ処理ソリューションを設計する。以下のような点を考察します。

    • インフラストラクチャの選択
    • システムの可用性とフォールト トレランス
    • 分散システムの使用
    • キャパシティ プランニング
    • ハイブリッド クラウドとエッジ コンピューティング
    • アーキテクチャの種類(例: メッセージ ブローカー、メッセージ キュー、ミドルウェア、サービス指向型アーキテクチャ、サーバーレス機能)
    • 少なくとも 1 回、順番に、1 回限りなどのイベント処理

    1.4 データ ウェアハウジングとデータ処理を移行する。以下のような点を考察します。

    • 現状認識と将来の設計への移行方法
    • オンプレミスからクラウドへの移行(Data Transfer Service、Transfer Appliance、Cloud Networking)
    • 移行の検証

2. データ処理システムの構築と運用化

    2.1 ストレージ システムの構築、運用を行う。以下のような点を考察します。

    • マネージド サービス(Cloud Bigtable、Cloud Spanner、Cloud SQL、BigQuery、Cloud Storage、Cloud Datastore、Cloud Memorystore)の有効活用
    • ストレージの費用とパフォーマンス
    • データのライフサイクル管理

    2.2 パイプラインの構築、運用を行う。以下のような点を考察します。

    • データ クレンジング
    • バッチとストリーミング
    • 変換
    • データの取得とインポート
    • 新しいデータソースとの統合

    2.3 処理インフラストラクチャの構築、運用を行う。以下のような点を考察します。

    • リソースのプロビジョニング
    • パイプラインのモニタリング
    • パイプラインの調整
    • テストと品質管理

3. 機械学習モデルの運用化

    3.1 事前に構築された ML モデルをサービスとして活用する。以下のような点を考察します。

    • ML API(例: Vision API、Speech API)
    • ML API のカスタマイズ(例: AutoML Vision、AutoML テキスト)
    • 会話体験(例: Dialogflow)

    3.2 ML パイプラインをデプロイする。以下のような点を考察します。

    • 適切なデータの取り込み
    • 機械学習モデル(Cloud Machine Learning Engine、BigQuery ML、Kubeflow、Spark ML)の再トレーニング
    • 継続評価

    3.3 トレーニングとサービスを提供するインフラストラクチャを選択する。以下のような点を考察します。

    • 分散型マシンと単一マシン
    • エッジ コンピューティングの活用
    • ハードウェア アクセラレータ(例: GPU、TPU)

    3.4 機械学習モデルの測定、モニタリング、トラブルシューティングを行う。以下のような点を考察します。

    • 機械学習の用語(例: 特徴、ラベル、モデル、回帰、分類、推奨、教師ありの学習と教師なしの学習、評価指標)
    • 機械学習モデルの依存関係の影響
    • 一般的なエラーの原因(例: データに関する前提条件)

4.ソリューションの品質保証

    4.1 セキュリティとコンプライアンスを考慮して設計する。以下のような点を考察します。

    • ID とアクセス管理(例: Cloud IAM)
    • データ セキュリティ(暗号化、鍵管理)
    • プライバシーの確保(例: Data Loss Prevention API)
    • 法令遵守(例: 医療保険の相互運用性と説明責任に関する法律(HIPAA)、児童オンライン プライバシー保護法(COPPA)、FedRAMP、一般データ保護規則(GDPR))

    4.2 スケーラビリティと効率性を確保する。以下のような点を考察します。

    • テストスイートの構築と実行
    • パイプライン モニタリング(例: Stackdriver)
    • データ表現とデータ処理インフラストラクチャの評価、トラブルシューティング、改良
    • リソースのサイズ変更と自動スケーリング

    4.3 信頼性と忠実性を確保する。以下のような点を考察します。

    • データの準備と品質管理の実施(例: Cloud Dataprep)
    • 検証とモニタリング
    • データ復旧の計画、実施、ストレステスト(フォールト トレランス、失敗したジョブの再実行、遡及的再分析の実行)
    • ACID、べき等性、結果整合性の要件から選択

    4.4 柔軟性とポータビリティを確保する。以下のような点を考察します。

    • 現在と将来のビジネス要件へのマッピング
    • データとアプリケーションのポータビリティを考慮した設計(例: マルチクラウド、データ所在地の要件)
    • データのステージング、カタログ化、発見