Professional Data Engineer
現在の一般提供版の認定試験ガイド
Professional Data Engineer は、データを収集、変換、公開して、データに基づいて意思決定できるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングができなければなりません。
新しい Professional Data Engineer ベータ版認定試験の受付を間もなく開始します。ベータ版試験の受験者は、ベータ版試験ガイドをご確認ください。
最新情報
近日実施される Professional Data Engineer 認定試験のベータ版は、Google Cloud のデータ保存、データ共有、データ ガバナンスの更新事項に対応しています。新しい試験は、ML モデルの運用化に関する話題から重心をシフトし、データの利用度と価値を高めるデータ エンジニアの役割に焦点を当てた内容になっています。
セクション 1: データ処理システムの設計
1.1 適切なストレージ テクノロジーを選択する。 以下のような点を考慮します。
● ストレージ システムのビジネス要件へのマッピング
● データ モデリング
● レイテンシ、スループット、トランザクションに関係するトレードオフ
● 分散システム
● スキーマの設計
1.2 データ パイプラインを設計する。以下のような点を考慮します。
● データの公開と可視化(例: BigQuery)
● データのバッチとストリーミング(例: Dataflow、Dataproc、Apache Beam、Apache Spark / Hadoop エコシステム、Pub/Sub、Apache Kafka など)
● オンライン(インタラクティブ)予測とバッチ予測
● ジョブの自動化とオーケストレーション(例: Cloud Composer)
1.3 データ処理ソリューションを設計する。 以下のような点を考慮します。
● インフラストラクチャの選択
● システムの可用性とフォールト トレランス
● 分散システムの使用
● キャパシティ プランニング
● ハイブリッド クラウドとエッジ コンピューティング
● アーキテクチャの種類(例: メッセージ ブローカー、メッセージ キュー、ミドルウェア、サービス指向型アーキテクチャ、サーバーレス機能)
● 少なくとも 1 回、順番に、1 回限りなどのイベント処理
1.4 データ ウェアハウジングとデータ処理を移行する。 以下のような点を考慮します。
● 現状認識と将来の設計への移行方法
● オンプレミスからクラウドへの移行(Data Transfer Service、Transfer Appliance、Cloud Networking)
● 移行の検証
セクション 2: データ処理システムの構築、運用
2.1 ストレージ システムの構築、運用を行う。 以下のような点を考慮します。
● マネージド サービスの有効活用(Cloud Bigtable、Cloud Spanner、Cloud SQL、BigQuery、Cloud Storage、Datastore、Memorystore)
● ストレージの費用とパフォーマンス
● データのライフサイクル管理
2.2 パイプラインの構築、運用を行う。 以下のような点を考慮します。
● データ クレンジング
● バッチとストリーミング
● 変換
● データの取得とインポート
● 新しいデータソースとの統合
2.3 処理インフラストラクチャの構築、運用を行う。以下のような点を考慮します。
● リソースのプロビジョニング
● パイプラインのモニタリング
● パイプラインの調整
● テストと品質管理
セクション 3: 機械学習モデルの運用
3.1 事前に構築された ML モデルをサービスとして活用する。 以下のような点を考慮します。
● ML API(例: Vision API、Speech API)
● ML API のカスタマイズ(例: AutoML Vision、AutoML テキスト)
● 会話体験(例:Dialogflow)
3.2 ML パイプラインをデプロイする。以下のような点を考慮します。
● 適切なデータの取り込み
● 機械学習モデルの再トレーニング(AI Platform Prediction、AI Platform Training、BigQuery ML、Kubeflow、Spark ML)
● 継続評価
3.3 適切なトレーニングとサービスを提供するインフラストラクチャを選択する。以下のような点を考慮します。
● 分散型マシンと単一マシン
● エッジ コンピューティングの活用
● ハードウェア アクセラレータ(例: GPU、TPU)
3.4 機械学習モデルの測定、モニタリング、トラブルシューティングを行う。以下のような点を考慮します。
● 機械学習の用語(例: 特徴、ラベル、モデル、回帰、分類、推奨、教師ありの学習と教師なしの学習、評価指標)
● 機械学習モデルの依存関係の影響
● 一般的なエラーの原因(例: データに関する前提条件)
セクション 4: ソリューションの品質保証
4.1 セキュリティとコンプライアンスを考慮して設計する。 以下のような点を考慮します。
● ID とアクセス管理(例: Cloud IAM)
● データ セキュリティ(暗号化、鍵管理)
● プライバシーの確保(例: Data Loss Prevention API)
● 法令遵守(例: 医療保険の相互運用性と説明責任に関する法律(HIPAA)、児童オンライン プライバシー保護法(COPPA)、FedRAMP、一般データ保護規則(GDPR))
4.2 スケーラビリティと効率性を確保する。以下のような点を考慮します。
● テストスイートの構築と実行
● パイプラインのモニタリング(例: Cloud Monitoring)
● データ表現とデータ処理インフラストラクチャの評価、トラブルシューティング、改良
● リソースのサイズ変更と自動スケーリング
4.3 信頼性と忠実性を確保する。以下のような点を考慮します。
● データの準備と品質管理の実施(例: Dataprep)
● 検証とモニタリング
● データ復旧の計画、実施、ストレステスト(フォールト トレランス、失敗したジョブの再実行、遡及的再分析の実行)
● ACID、べき等性、結果整合性の要件から選択
4.4 柔軟性とポータビリティを確保する。 以下のような点を考慮します。
● 現在と将来のビジネス要件への対応
● データとアプリケーションのポータビリティを考慮した設計(例: マルチクラウド、データ所在地の要件)
● データのステージング、カタログ化、発見