Professional Data Engineer

認定試験ガイド

Professional Data Engineer

ケーススタディのサンプル

Data Engineer 認定試験の質問で、架空の会社やソリューションを説明するケーススタディが使われる場合があります。これらのケーススタディは、回答を選択するうえで役立つコンテキストを提供することを目的としています。試験で使われる可能性のあるケーススタディのサンプルをご確認ください。

職務の説明

Google Certified Professional - Data Engineer とは、データを収集、変換、可視化してデータに基づいた意思決定をできる者をいいます。データ エンジニアは、データ処理システムについて、特にそのセキュリティ、信頼性、フォールト トレランス、スケーラビリティ、適合性、効率性に重点を置いてシステムを設計、構築、保守、トラブルシューティングできる必要があります。また、データを分析してビジネスの成果を客観的に判断したり、意思決定をサポートする統計モデルを構築したり、重要なビジネス プロセスの自動化と簡素化を図るための機械学習モデルを作成することもあります。

この試験は英語、日本語、スペイン語で受験できます。

認定試験ガイド

セクション 1: データ処理システムの設計

1.1 柔軟なデータ表現を設計する。次のような内容を考察します。

  • データ技術の進展
  • ビジネス要件の変更
  • 現状認識と将来の設計への移行方法
  • データ モデリング
  • トレードオフ
  • 分散システム
  • スキーマの設計

1.2 データ パイプラインを設計する。次のような内容を考察します。

  • データ技術の進展
  • ビジネス要件の変更
  • 現状認識と将来の設計への移行方法
  • データ モデリング
  • トレードオフ
  • システムの可用性
  • 分散システム
  • スキーマの設計
  • エラーの一般的な原因(選択バイアスの排除など)

1.3 データ処理インフラストラクチャを設計する。次のような内容を考察します。

  • データ技術の進展
  • ビジネス要件の変更
  • 現状認識、将来の設計への移行方法
  • データ モデリング
  • トレードオフ
  • システムの可用性
  • 分散システム
  • スキーマの設計
  • キャパシティ プランニング
  • さまざまな種類のアーキテクチャ: メッセージ ブローカー、メッセージ キュー、ミドルウェア、サービス指向型

セクション 2: データ構造とデータベースの構築、保守

2.1 柔軟なデータ表現の構築、保守を行う。

2.2 パイプラインの構築、保守を行う。次のような内容を考察します。

  • データ クレンジング
  • バッチとストリーミング
  • 変換
  • データの取得とインポート
  • テストと品質管理
  • 新しいデータソースへの接続

2.3 処理インフラストラクチャの構築、保守を行う。次のような内容を考察します。

  • リソースのプロビジョニング
  • パイプラインのモニタリング
  • パイプラインの調整
  • テストと品質管理

セクション 3: データ分析と機械学習の実現

3.1 データを分析する。次のような内容を考察します。

  • データの収集とラベル付け
  • データの可視化
  • 次元数の削減
  • データ クレンジングとデータの正規化
  • 成功指標の定義

3.2 機械学習。次のような内容を考察します。

  • 特徴選択と特徴エンジニアリング
  • アルゴリズムの選択
  • モデルのデバッグ

3.3 機械学習モデルをデプロイする。次のような内容を考察します。

  • パフォーマンスとコストの最適化
  • オンライン学習と動的学習

セクション 4: 分析と最適化のためのビジネス プロセスのモデル化

4.1 ビジネス要件をデータ表現にマッピングする。次のような内容を考察します。

  • ビジネス ユーザーとの共同作業
  • ビジネス要件の収集

4.2 データ表現、データ インフラストラクチャのパフォーマンスとコストを最適化する。 次のような内容を考察します。

  • リソースのサイズ変更とスケーリング
  • データ クレンジング、分散システム
  • 高性能アルゴリズム
  • エラーの一般的な原因(選択バイアスの排除など)

セクション 5: 信頼性の保証

5.1 品質管理を行う。次のような内容を考察します。

  • 検証
  • テストスイートの構築と実行
  • パイプラインのモニタリング

5.2 データ表現とデータ処理インフラストラクチャの評価、トラブルシューティング、改良を行う。

5.3 データを復元する。次のような内容を考察します。

  • 計画(フォールト トレランスなど)
  • 実行(失敗したジョブの再実行、遡及的再分析の実行など)
  • ストレステストのデータ復旧計画とプロセス

セクション 6: データの可視化とポリシーの提唱

6.1 データ可視化ツールとレポートツールを構築(または選択)する。次のような内容を考察します。

  • 自動化
  • 意思決定のサポート
  • データ要約(上層部に向けた翻訳、適合性、トラッキング可能性、整合性など)

6.2 ポリシーを提唱し、データやレポートを公開する。

セクション 7: セキュリティとコンプライアンスを考慮した設計

7.1 安全なデータ インフラストラクチャとプロセスを設計する。次のような内容を考察します。

  • Identity and Access Management(IAM)
  • データ セキュリティ
  • ペネトレーション テスト
  • 職掌分散(SoD)
  • セキュリティ管理

7.2 法令遵守を考慮して設計する。次のような内容を考察します。

  • 医療保険の相互運用性と説明責任に関する法律(HIPAA)、児童オンライン プライバシー保護法(COPPA)などの法規制
  • 監査