Professional Data Engineer

認定試験ガイド

Professional Data Engineer は、データを収集、変換、公開することで、ほかのユーザーにとってデータを有効で価値のあるものにします。ビジネス要件と規制要件を満たすために、プロダクトやサービスを評価し、選択します。Professional Data Engineer は、堅牢なデータ処理システムを作成して管理します。これには、データ処理ワークロードを設計、構築、デプロイ、モニタリング、維持、保護する能力が含まれます。


セクション 1: データ処理システムの設計 (試験の約22%)

1.1 セキュリティとコンプライアンスを考慮した設計。以下のような点を考慮します。

Identity and Access Management(Cloud IAM と組織のポリシーなど)

データ セキュリティ(暗号化と鍵管理)

プライバシー(個人を特定できる情報、Cloud Data Loss Prevention API など)

データアクセスと保存に関する地域的な考慮事項(データ主権)

法令遵守、規制遵守

1.2 信頼性と確実性を考慮した設計。以下のような点を考慮します。

データの準備とクリーニング(Dataprep、Dataflow、Cloud Data Fusion など)

データ パイプラインのモニタリングとオーケストレーション

障害復旧とフォールト トレランス

Atomicity(原子性)、Consistency(一貫性)、Isolation(独立性)、Durability(永続性)(ACID)に対するコンプライアンスと可用性に関連する意思決定

データの検証

1.3 柔軟性とポータビリティを考慮した設計。以下のような点を考慮します。

アーキテクチャへの現在と将来のビジネス要件のマッピング

データとアプリケーションのポータビリティを考慮した設計(例: マルチクラウド、データ所在地の要件)

データのステージング、カタログ化、検出(データ ガバナンス)

1.4 データ移行の設計。以下のような点を考慮します。

現在の関係者のニーズ、ユーザー、プロセス、技術の分析と望ましい状態を実現するための計画の策定

Google Cloud への移行計画(BigQuery Data Transfer Service、Database Migration Service、Transfer Appliance、Google Cloud ネットワーキング、Datastream など)

移行検証戦略の策定

適切なデータ ガバナンスを確実化するためのプロジェクト、データセット、テーブル アーキテクチャの設計

セクション 2: データの取り込みと処理 (試験の約25%)

2.1 データ パイプラインの計画。以下のような点を考慮します。

データソースとシンクの定義

データ変換ロジックの定義

ネットワーキングの基礎

データ暗号化

2.2 パイプラインの構築。以下のような点を考慮します。

データ クレンジング

サービスの特定(例: Dataflow、Apache Beam、Dataproc、Cloud Data Fusion、BigQuery、Pub/Sub、Apache Spark、Hadoop エコシステム、Apache Kafka など)

変換

     バッチ

     ストリーミング(例: ウィンドウ処理、受信遅延データなど)

     言語

     アドホックなデータの取り込み(1 回限りまたは自動化されたパイプライン)

データの取得とインポート

新しいデータソースとの統合

2.3 パイプラインのデプロイと運用化。以下のような点を考慮します。

ジョブの自動化とオーケストレーション(例: Cloud Composer と Workflows など)

CI / CD(継続的インテグレーションおよび継続的デプロイ)

セクション 3: データの保存 (試験の約20%)

3.1 ストレージ システムの選択。以下のような点を考慮します。

データアクセス パターンの分析

マネージド サービスの選択(例: Bigtable、Cloud Spanner、Cloud SQL、Cloud Storage、Firestore、Memorystore)

ストレージの費用とパフォーマンスの計画

データのライフサイクル管理

3.2 データ ウェアハウスを使用するための計画。以下のような点を考慮します。

データモデルの設計

データ正規化の度合いの決定

ビジネス要件のマッピング

データアクセス パターンをサポートするアーキテクチャの定義

3.3 データレイクの使用。以下のような点を考慮します。

レイクの管理(データの検出、アクセス、費用管理の構成)

データの処理

データレイクのモニタリング

3.4 データメッシュを考慮した設計。以下のような点を考慮します。

要件に基づくデータメッシュを Google Cloud のツール(例: Dataplex、Data Catalog、BigQuery、Cloud Storage)で構築する

データを分散チームで使用するためにセグメント化する

分散データシステム用の連携ガバナンス モデルを構築する

セクション 4: 分析用データの準備と使用 (試験の約15%)

4.1 可視化用データの準備。以下のような点を考慮します。

ツールへの接続

フィールドの事前計算

BigQuery マテリアライズド ビュー(ビューロジック)

時間データの粒度の決定

パフォーマンスの悪いクエリのトラブルシューティング

Identity and Access Management(IAM)および Cloud Data Loss Prevention(Cloud DLP)

4.2 データの共有。以下のような点を考慮します。

データ共有のルール定義

データセットの公開

レポートと視覚化の公開

Analytics Hub

4.3 データの探索と分析。以下のような点を考慮します。

特徴量エンジニアリングのためのデータ準備(ML モデルのトレーニングと提供)

データ検出の実施

セクション 5: データ ワークロードの管理と自動化 (試験の約18%)

5.1 リソースの最適化。以下のような点を考慮します。

データに関連するビジネスニーズに従って費用を最小限に抑える

ビジネス クリティカルなデータプロセスにとって十分なリソースを使用できるようにする

永続的なデータクラスタとジョブベースのデータクラスタ(例: Dataproc)のどちらを使用するかを決定する

5.2 自動化と反復性の設計。以下のような点を考慮します。

Cloud Composer の有向非巡回グラフ(DAG)の作成

反復可能な方法でのジョブのスケジューリング

5.3 ビジネス要件に基づくワークロードの最適化。以下のような点を考慮します。

Flex、オンデマンド、定額のスロット料金((柔軟性をとるか、固定容量をとるか)

インタラクティブ方式またはバッチ方式のクエリジョブ

5.4 プロセスのモニタリングとトラブルシューティング。以下のような点を考慮します。

データプロセスのオブザーバビリティ(例: Cloud Monitoring、Cloud Logging、BigQuery 管理パネル)

計画された使用量のモニタリング

エラー メッセージ、請求に関する問題、割り当てのトラブルシューティング

ジョブ、クエリ、コンピューティング容量(予約)などのワークロードの管理

5.5 障害への意識の持続と影響の軽減。以下のような点を考慮します。

フォールト トレランスを念頭に置いたシステム設計と再起動の管理

複数のリージョンまたはゾーンでのジョブの実行

データの破損や欠落への準備

データのレプリケーションとフェイルオーバー(例: Cloud SQL、Redis クラスタ)