Google Cloud Innovators で学習と成長を加速できます。 今すぐ参加

Professional Data Engineer

認定試験ガイド

Professional Data Engineer は、データを収集、変換、公開して、データに基づいて意思決定できるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングができなければなりません。


セクション 1. データ処理システムの設計

1.1 適切なストレージ テクノロジーを選択する。 以下のような点を考慮します。

    a. ストレージ システムのビジネス要件へのマッピング

    b. データ モデリング

    c. レイテンシ、スループット、トランザクションに関係するトレードオフ

    d. 分散システム

    e. スキーマの設計

1.2 データ パイプラインを設計する。以下のような点を考慮します。

    a. データの公開と可視化(例: BigQuery)

    b. データのバッチとストリーミング( Dataflow、Dataproc、Apache Beam、Apache Spark / Hadoop エコシステム、Pub/Sub、Apache Kafka など)

    c. オンライン(インタラクティブ)予測とバッチ予測

    d. ジョブの自動化とオーケストレーション(例: Cloud Composer)

1.3 データ処理ソリューションを設計する。 以下のような点を考慮します。

    a. インフラストラクチャの選択

    b. システムの可用性とフォールト トレランス

    c. 分散システムの使用

    d. キャパシティ プランニング

    e. ハイブリッド クラウドとエッジ コンピューティング

    f. アーキテクチャの種類(例: メッセージ ブローカー、メッセージ キュー、ミドルウェア、サービス指向型アーキテクチャ、サーバーレス機能)

    g. 少なくとも 1 回、順番に、1 回限りなどのイベント処理

1.4 データ ウェアハウジングとデータ処理を移行する。 以下のような点を考慮します。

    a. 現状認識と将来の設計への移行方法

    b. オンプレミスからクラウドへの移行(Data Transfer Service、Transfer Appliance、Cloud Networking)

    c. 移行の検証

セクション 2. データ処理システムの構築と運用化

2.1 ストレージ システムの構築、運用を行う。 以下のような点を考慮します。

    a. マネージド サービスの有効活用(Cloud Bigtable、Cloud Spanner、Cloud SQL、BigQuery、Cloud Storage、Datastore、Memorystore)

    b. ストレージの費用とパフォーマンス

    c. データのライフサイクル管理

2.2 パイプラインの構築、運用を行う。 以下のような点を考慮します。

    a. データ クレンジング

    b. バッチとストリーミング

    c. 変換

    d. データの取得とインポート

    e. 新しいデータソースとの統合

2.3 処理インフラストラクチャの構築、運用を行う。以下のような点を考慮します。

    a. リソースのプロビジョニング

    b. パイプラインのモニタリング

    c. パイプラインの調整

    d. テストと品質管理

セクション 3. 機械学習モデルの運用化

3.1 事前に構築された ML モデルをサービスとして活用する。 以下のような点を考慮します。

    a. ML API(例: Vision API、Speech API)

    b. ML API のカスタマイズ(例: AutoML Vision、AutoML テキスト)

    c. 会話体験(例:Dialogflow)

3.2 ML パイプラインをデプロイする。以下のような点を考慮します。

    a. 適切なデータの取り込み

    b. 機械学習モデルの再トレーニング(AI Platform Prediction、AI Platform Training、BigQuery ML、Kubeflow、Spark ML)

    c. 継続評価

3.3 適切なトレーニングとサービスを提供するインフラストラクチャを選択する。以下のような点を考慮します。

    a. 分散型マシンと単一マシン

    b. エッジ コンピューティングの活用

    c. ハードウェア アクセラレータ(例: GPU、TPU)

3.4 機械学習モデルの測定、モニタリング、トラブルシューティングを行う。以下のような点を考慮します。

    a. 機械学習の用語(例: 特徴、ラベル、モデル、回帰、分類、推奨、教師ありの学習と教師なしの学習、評価指標)

    b. 機械学習モデルの依存関係の影響

    c. 一般的なエラーの原因(例: データに関する前提条件)

セクション 4ソリューションの品質保証

4.1 セキュリティとコンプライアンスを考慮して設計する。 以下のような点を考慮します。

    a. ID とアクセス管理(例: Cloud IAM)

    b. データ セキュリティ(暗号化、鍵管理)

    c. プライバシーの確保(例: Data Loss Prevention API)

    d. 法令遵守(例: 医療保険の相互運用性と説明責任に関する法律(HIPAA)、児童オンライン プライバシー保護法(COPPA)、FedRAMP、一般データ保護規則(GDPR))

4.2 スケーラビリティと効率性を確保する。以下のような点を考慮します。

    a. テストスイートの構築と実行

    b. パイプラインのモニタリング(Cloud Monitoring)

    c. データ表現とデータ処理インフラストラクチャの評価、トラブルシューティング、改良

    d. リソースのサイズ変更と自動スケーリング

4.3 信頼性と忠実性を確保する。以下のような点を考慮します。

    a. データの準備と品質管理の実施(例: Dataprep)

    b. 検証とモニタリング

    c. データ復旧の計画、実施、ストレステスト(フォールト トレランス、失敗したジョブの再実行、遡及的再分析の実行)

    d. ACID、べき等性、結果整合性の要件から選択

4.4 柔軟性とポータビリティを確保する。 以下のような点を考慮します。

    a. 現在と将来のビジネス要件へのマッピング

    b. データとアプリケーションのポータビリティを考慮した設計(例: マルチクラウド、データ所在地の要件)

    c. データのステージング、カタログ化、発見