コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。
年間サブスクリプションを開始すると、Google Cloud 認定資格試験のクーポンを獲得できます。サブスクリプション特典の詳細をご確認ください

Professional Data Engineer

認定試験ガイド

Professional Data Engineer は、データを収集、変換、公開して、データに基づいて意思決定できるようにします。Data Engineer には、セキュリティとコンプライアンス、スケーラビリティと効率性、信頼性と忠実性、柔軟性とポータビリティに特に重点を置いて、データ処理システムの設計、構築、運用化、保護、モニタリングを行う能力が必要です。また、既存の機械学習モデルの活用、デプロイ、継続的なトレーニングができなければなりません。


セクション 1: データ処理システムの設計

1.1 適切なストレージ テクノロジーを選択する。 以下のような点を考慮します。

      ストレージ システムのビジネス要件へのマッピング

      データ モデリング

      レイテンシ、スループット、トランザクションに関係するトレードオフ

      分散システム

      スキーマの設計

1.2 データ パイプラインを設計する。以下のような点を考慮します。

      データの公開と可視化(例: BigQuery)

      データのバッチとストリーミング(例: Dataflow、Dataproc、Apache Beam、Apache Spark / Hadoop エコシステム、Pub/Sub、Apache Kafka など)

      オンライン(インタラクティブ)予測とバッチ予測

      ジョブの自動化とオーケストレーション(例: Cloud Composer)

1.3 データ処理ソリューションを設計する。 以下のような点を考慮します。

      インフラストラクチャの選択

      システムの可用性とフォールト トレランス

      分散システムの使用

      キャパシティ プランニング

      ハイブリッド クラウドとエッジ コンピューティング

      アーキテクチャの種類(例: メッセージ ブローカー、メッセージ キュー、ミドルウェア、サービス指向型アーキテクチャ、サーバーレス機能)

      少なくとも 1 回、順番に、1 回限りなどのイベント処理

1.4 データ ウェアハウジングとデータ処理を移行する。 以下のような点を考慮します。

      現状認識と将来の設計への移行方法

      オンプレミスからクラウドへの移行(Data Transfer Service、Transfer Appliance、Cloud Networking)

      移行の検証

セクション 2: データ処理システムの構築、運用

2.1 ストレージ システムの構築、運用を行う。 以下のような点を考慮します。

      マネージド サービスの有効活用(Cloud Bigtable、Cloud Spanner、Cloud SQL、BigQuery、Cloud Storage、Datastore、Memorystore)

      ストレージの費用とパフォーマンス

      データのライフサイクル管理

2.2 パイプラインの構築、運用を行う。 以下のような点を考慮します。

      データ クレンジング

      バッチとストリーミング

      変換

      データの取得とインポート

      新しいデータソースとの統合

2.3 処理インフラストラクチャの構築、運用を行う。以下のような点を考慮します。

      リソースのプロビジョニング

      パイプラインのモニタリング

      パイプラインの調整

      テストと品質管理

セクション 3: 機械学習モデルの運用

3.1 事前に構築された ML モデルをサービスとして活用する。 以下のような点を考慮します。

      ML API(例: Vision API、Speech API)

      ML API のカスタマイズ(例: AutoML Vision、AutoML テキスト)

      会話体験(例:Dialogflow)

3.2 ML パイプラインをデプロイする。以下のような点を考慮します。

      適切なデータの取り込み

      機械学習モデルの再トレーニング(AI Platform Prediction、AI Platform Training、BigQuery ML、Kubeflow、Spark ML)

      継続評価

3.3 適切なトレーニングとサービスを提供するインフラストラクチャを選択する。以下のような点を考慮します。

      分散型マシンと単一マシン

      エッジ コンピューティングの活用

      ハードウェア アクセラレータ(例: GPU、TPU)

3.4 機械学習モデルの測定、モニタリング、トラブルシューティングを行う。以下のような点を考慮します。

      機械学習の用語(例: 特徴、ラベル、モデル、回帰、分類、推奨、教師ありの学習と教師なしの学習、評価指標)

      機械学習モデルの依存関係の影響

      一般的なエラーの原因(例: データに関する前提条件)

セクション 4: ソリューションの品質保証

4.1 セキュリティとコンプライアンスを考慮して設計する。 以下のような点を考慮します。

      ID とアクセス管理(例: Cloud IAM)

      データ セキュリティ(暗号化、鍵管理)

      プライバシーの確保(例: Data Loss Prevention API)

      法令遵守(例: 医療保険の相互運用性と説明責任に関する法律(HIPAA)、児童オンライン プライバシー保護法(COPPA)、FedRAMP、一般データ保護規則(GDPR))

4.2 スケーラビリティと効率性を確保する。以下のような点を考慮します。

      テストスイートの構築と実行

      パイプラインのモニタリング(例: Cloud Monitoring)

      データ表現とデータ処理インフラストラクチャの評価、トラブルシューティング、改良

      リソースのサイズ変更と自動スケーリング

4.3 信頼性と忠実性を確保する。以下のような点を考慮します。

      データの準備と品質管理の実施(例: Dataprep)

      検証とモニタリング

      データ復旧の計画、実施、ストレステスト(フォールト トレランス、失敗したジョブの再実行、遡及的再分析の実行)

      ACID、べき等性、結果整合性の要件から選択

4.4 柔軟性とポータビリティを確保する。 以下のような点を考慮します。

      現在と将来のビジネス要件への対応

      データとアプリケーションのポータビリティを考慮した設計(例: マルチクラウド、データ所在地の要件)

      データのステージング、カタログ化、発見