Professional Data Engineer
認定試験ガイド
Professional Data Engineer は、データを収集、変換、公開して、データに基づく意思決定ができるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングもできなければなりません。
1. データ処理システムの設計
- ストレージ システムとビジネス要件のマッピング
- データ モデリング
- レイテンシ、スループット、トランザクションに関係するトレードオフ
- 分散システム
- スキーマの設計
- データの公開と可視化(例: BigQuery)
- データのバッチとストリーミング(例: Cloud Dataflow、Cloud Dataproc、Apache Beam、Apache Spark / Hadoop エコシステム、Cloud Pub/Sub、Apache Kafka)
- オンライン(インタラクティブ)とバッチ予測
- ジョブの自動化とオーケストレーション(例: Cloud Composer)
- インフラストラクチャの選択
- システムの可用性とフォールト トレランス
- 分散システムの使用
- キャパシティ プランニング
- ハイブリッド クラウドとエッジ コンピューティング
- アーキテクチャの種類(例: メッセージ ブローカー、メッセージ キュー、ミドルウェア、サービス指向型アーキテクチャ、サーバーレス機能)
- 少なくとも 1 回、順番に、1 回限りなどのイベント処理
- 現状認識と将来の設計への移行方法
- オンプレミスからクラウドへの移行(Data Transfer Service、Transfer Appliance、Cloud Networking)
- 移行の検証
1.1 適切なストレージ テクノロジーを選択する。以下のような点を考察します。
1.2 データ パイプラインを設計する。以下のような点を考察します。
1.3 データ処理ソリューションを設計する。以下のような点を考察します。
1.4 データ ウェアハウジングとデータ処理を移行する。以下のような点を考察します。
2. データ処理システムの構築と運用化
- マネージド サービス(Cloud Bigtable、Cloud Spanner、Cloud SQL、BigQuery、Cloud Storage、Cloud Datastore、Cloud Memorystore)の有効活用
- ストレージの費用とパフォーマンス
- データのライフサイクル管理
- データ クレンジング
- バッチとストリーミング
- 変換
- データの取得とインポート
- 新しいデータソースとの統合
- リソースのプロビジョニング
- パイプラインのモニタリング
- パイプラインの調整
- テストと品質管理
2.1 ストレージ システムの構築、運用を行う。以下のような点を考察します。
2.2 パイプラインの構築、運用を行う。以下のような点を考察します。
2.3 処理インフラストラクチャの構築、運用を行う。以下のような点を考察します。
3. 機械学習モデルの運用化
- ML API(例: Vision API、Speech API)
- ML API のカスタマイズ(例: AutoML Vision、AutoML テキスト)
- 会話体験(例: Dialogflow)
- 適切なデータの取り込み
- 機械学習モデル(Cloud Machine Learning Engine、BigQuery ML、Kubeflow、Spark ML)の再トレーニング
- 継続評価
- 分散型マシンと単一マシン
- エッジ コンピューティングの活用
- ハードウェア アクセラレータ(例: GPU、TPU)
- 機械学習の用語(例: 特徴、ラベル、モデル、回帰、分類、推奨、教師ありの学習と教師なしの学習、評価指標)
- 機械学習モデルの依存関係の影響
- 一般的なエラーの原因(例: データに関する前提条件)
3.1 事前に構築された ML モデルをサービスとして活用する。以下のような点を考察します。
3.2 ML パイプラインをデプロイする。以下のような点を考察します。
3.3 トレーニングとサービスを提供するインフラストラクチャを選択する。以下のような点を考察します。
3.4 機械学習モデルの測定、モニタリング、トラブルシューティングを行う。以下のような点を考察します。
4.ソリューションの品質保証
- ID とアクセス管理(例: Cloud IAM)
- データ セキュリティ(暗号化、鍵管理)
- プライバシーの確保(例: Data Loss Prevention API)
- 法令遵守(例: 医療保険の相互運用性と説明責任に関する法律(HIPAA)、児童オンライン プライバシー保護法(COPPA)、FedRAMP、一般データ保護規則(GDPR))
- テストスイートの構築と実行
- パイプライン モニタリング(例: Stackdriver)
- データ表現とデータ処理インフラストラクチャの評価、トラブルシューティング、改良
- リソースのサイズ変更と自動スケーリング
- データの準備と品質管理の実施(例: Cloud Dataprep)
- 検証とモニタリング
- データ復旧の計画、実施、ストレステスト(フォールト トレランス、失敗したジョブの再実行、遡及的再分析の実行)
- ACID、べき等性、結果整合性の要件から選択
- 現在と将来のビジネス要件へのマッピング
- データとアプリケーションのポータビリティを考慮した設計(例: マルチクラウド、データ所在地の要件)
- データのステージング、カタログ化、発見
4.1 セキュリティとコンプライアンスを考慮して設計する。以下のような点を考察します。
4.2 スケーラビリティと効率性を確保する。以下のような点を考察します。
4.3 信頼性と忠実性を確保する。以下のような点を考察します。
4.4 柔軟性とポータビリティを確保する。以下のような点を考察します。