ステップ 3: 統合メカニズムを決定する

このページでは、Cortex Framework のコアである Cortex Framework Data Foundation をデプロイする 3 番目のステップについて説明します。この手順では、選択したデータソースとの統合を構成します。サンプルデータを使用する場合は、この手順をスキップしてください

統合の概要

Cortex Framework を使用すると、さまざまなソースと他のプラットフォームからのデータを一元化できます。これにより、データの信頼できる唯一の情報源が作成されます。Cortex Data Foundation は、各データソースとさまざまな方法で統合されますが、ほとんどは同様の手順に沿って行われます。

  • ソースから未加工レイヤ: API を使用して、データソースから未加工データセットにデータを取り込みます。これは、Cloud Composer DAG によってトリガーされる Dataflow パイプラインを使用して実現されます。
  • 元データレイヤから CDC レイヤ: 元データセットに CDC 処理を適用し、出力を CDC データセットに保存します。これは、BigQuery SQL を実行する Cloud Composer DAG によって実現されます。
  • CDC レイヤからレポートレイヤ: レポート データセットの CDC テーブルから最終的なレポート テーブルを作成します。これは、構成方法に応じて、CDC テーブルの上にランタイム ビューを作成するか、BigQuery テーブルのマテリアライズド データに対して Cloud Composer DAG を実行することで実現できます。構成の詳細については、レポート設定ファイルのカスタマイズをご覧ください。

config.json ファイルでは、さまざまなワークロードからデータを転送するためにデータソースに接続するために必要な設定を構成します。各データソースの統合オプションについては、次のリソースをご覧ください。

各データソースがサポートするエンティティ リレーションシップ ダイアグラムの詳細については、Cortex Framework Data Foundation リポジトリの docs フォルダをご覧ください。

K9 デプロイ

K9 デプロイヤーを使用すると、さまざまなデータソースの統合を簡素化できます。K9 デプロイヤーは、さまざまなデータソースで再利用可能なコンポーネントの取り込み、処理、モデリングを担当する、BigQuery 環境内の事前定義済みデータセットです。

たとえば、time ディメンションは、グレゴリオ暦に基づいて分析結果を取得する必要があるテーブルがあるすべてのデータソースで再利用できます。K9 デプロイヤーは、天気情報や Google トレンドなどの外部データを他のデータソース(SAP、Salesforce、マーケティングなど)と組み合わせます。この拡充されたデータセットにより、より深い分析情報とより包括的な分析が可能になります。

次の図は、さまざまな元のソースからさまざまなレポートレイヤへのデータフローを示しています。

K9 データセット

図 1K9 データセット。

この図のソース プロジェクトには、選択したデータソース(SAP、Salesforce、マーケティング)の元データが含まれています。一方、ターゲット プロジェクトには、変更データ キャプチャ(CDC)プロセスから取得された処理済みデータが含まれています。

前処理の K9 ステップは、すべてのワークロードがデプロイを開始する前に実行されるため、再利用可能なモデルはデプロイ中に使用できます。このステップでは、さまざまなソースのデータを変換して、一貫性があり再利用可能なデータセットを作成します。

ポスト処理の K9 ステップは、すべてのワークロードがレポートモデルをデプロイしてワークロード間のレポートを有効にするか、モデルを拡張して個々のレポート データセット内で必要な依存関係を見つけた後に行われます。

K9 デプロイを構成する

K9 構成ファイルで、生成される有向非巡回グラフ(DAG)とモデルを構成します。

K9 の前処理ステップは、データ パイプライン内のすべてのワークロードが一貫した準備済みデータにアクセスできるようにするため、重要です。これにより、冗長性が削減され、データの整合性が確保されます。

K9 に外部データセットを構成する方法の詳細については、K9 に外部データセットを構成するをご覧ください。

次のステップ

この手順が完了したら、次のデプロイ手順に進みます。

  1. ワークロードを確立する
  2. リポジトリのクローンを作成する
  3. 統合メカニズムを決定する(このページ)。
  4. コンポーネントを設定する
  5. デプロイを構成する
  6. デプロイを実行する