新しい Professional Data Engineer ベータ版認定試験の登録を 9 月 19 日に開始します。ベータ版試験の受験者は、ベータ版試験ガイドをご確認ください。

Professional Data Engineer

現在の一般提供版の認定試験ガイド

Professional Data Engineer は、データを収集、変換、公開して、データに基づいて意思決定できるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングができなければなりません。

新しい Professional Data Engineer ベータ版認定試験の受付を間もなく開始します。ベータ版試験の受験者は、ベータ版試験ガイドをご確認ください。

最新情報

近日実施される Professional Data Engineer 認定試験のベータ版は、Google Cloud のデータ保存、データ共有、データ ガバナンスの更新事項に対応しています。新しい試験は、ML モデルの運用化に関する話題から重心をシフトし、データの利用度と価値を高めるデータ エンジニアの役割に焦点を当てた内容になっています。


セクション 1: データ処理システムの設計

1.1 適切なストレージ テクノロジーを選択する。 以下のような点を考慮します。

ストレージ システムのビジネス要件へのマッピング

データ モデリング

レイテンシ、スループット、トランザクションに関係するトレードオフ

分散システム

スキーマの設計

1.2 データ パイプラインを設計する。以下のような点を考慮します。

データの公開と可視化(例: BigQuery)

データのバッチとストリーミング(例: Dataflow、Dataproc、Apache Beam、Apache Spark / Hadoop エコシステム、Pub/Sub、Apache Kafka など)

オンライン(インタラクティブ)予測とバッチ予測

ジョブの自動化とオーケストレーション(例: Cloud Composer)

1.3 データ処理ソリューションを設計する。 以下のような点を考慮します。

インフラストラクチャの選択

システムの可用性とフォールト トレランス

分散システムの使用

キャパシティ プランニング

ハイブリッド クラウドとエッジ コンピューティング

アーキテクチャの種類(例: メッセージ ブローカー、メッセージ キュー、ミドルウェア、サービス指向型アーキテクチャ、サーバーレス機能)

少なくとも 1 回、順番に、1 回限りなどのイベント処理

1.4 データ ウェアハウジングとデータ処理を移行する。 以下のような点を考慮します。

現状認識と将来の設計への移行方法

オンプレミスからクラウドへの移行(Data Transfer Service、Transfer Appliance、Cloud Networking)

移行の検証

セクション 2: データ処理システムの構築、運用

2.1 ストレージ システムの構築、運用を行う。 以下のような点を考慮します。

マネージド サービスの有効活用(Cloud Bigtable、Cloud Spanner、Cloud SQL、BigQuery、Cloud Storage、Datastore、Memorystore)

ストレージの費用とパフォーマンス

データのライフサイクル管理

2.2 パイプラインの構築、運用を行う。 以下のような点を考慮します。

データ クレンジング

バッチとストリーミング

変換

データの取得とインポート

新しいデータソースとの統合

2.3 処理インフラストラクチャの構築、運用を行う。以下のような点を考慮します。

リソースのプロビジョニング

パイプラインのモニタリング

パイプラインの調整

テストと品質管理

セクション 3: 機械学習モデルの運用

3.1 事前に構築された ML モデルをサービスとして活用する。 以下のような点を考慮します。

ML API(例: Vision API、Speech API)

ML API のカスタマイズ(例: AutoML Vision、AutoML テキスト)

会話体験(例:Dialogflow)

3.2 ML パイプラインをデプロイする。以下のような点を考慮します。

適切なデータの取り込み

機械学習モデルの再トレーニング(AI Platform Prediction、AI Platform Training、BigQuery ML、Kubeflow、Spark ML)

継続評価

3.3 適切なトレーニングとサービスを提供するインフラストラクチャを選択する。以下のような点を考慮します。

分散型マシンと単一マシン

エッジ コンピューティングの活用

ハードウェア アクセラレータ(例: GPU、TPU)

3.4 機械学習モデルの測定、モニタリング、トラブルシューティングを行う。以下のような点を考慮します。

機械学習の用語(例: 特徴、ラベル、モデル、回帰、分類、推奨、教師ありの学習と教師なしの学習、評価指標)

機械学習モデルの依存関係の影響

一般的なエラーの原因(例: データに関する前提条件)

セクション 4: ソリューションの品質保証

4.1 セキュリティとコンプライアンスを考慮して設計する。 以下のような点を考慮します。

ID とアクセス管理(例: Cloud IAM)

データ セキュリティ(暗号化、鍵管理)

プライバシーの確保(例: Data Loss Prevention API)

法令遵守(例: 医療保険の相互運用性と説明責任に関する法律(HIPAA)、児童オンライン プライバシー保護法(COPPA)、FedRAMP、一般データ保護規則(GDPR))

4.2 スケーラビリティと効率性を確保する。以下のような点を考慮します。

テストスイートの構築と実行

パイプラインのモニタリング(例: Cloud Monitoring)

データ表現とデータ処理インフラストラクチャの評価、トラブルシューティング、改良

リソースのサイズ変更と自動スケーリング

4.3 信頼性と忠実性を確保する。以下のような点を考慮します。

データの準備と品質管理の実施(例: Dataprep)

検証とモニタリング

データ復旧の計画、実施、ストレステスト(フォールト トレランス、失敗したジョブの再実行、遡及的再分析の実行)

ACID、べき等性、結果整合性の要件から選択

4.4 柔軟性とポータビリティを確保する。 以下のような点を考慮します。

現在と将来のビジネス要件への対応

データとアプリケーションのポータビリティを考慮した設計(例: マルチクラウド、データ所在地の要件)

データのステージング、カタログ化、発見