步驟 3:決定整合機制

本頁說明部署 Cortex Framework 資料基礎的第三個步驟,這是 Cortex Framework 的核心。在這個步驟中,您將設定與所選資料來源的整合。如果使用範例資料,請略過這個步驟

整合作業總覽

Cortex Framework 可協助您集中管理各種來源的資料,以及其他平台。這樣一來,您就能取得單一可靠的資料來源。Cortex Data Foundation 會以不同方式整合各個資料來源,但大多數都遵循類似程序:

  • 來源到原始層:使用 API 從資料來源擷取資料到原始資料集。方法是使用透過 Cloud Composer DAG 觸發的 Dataflow 管道。
  • 原始層到 CDC 層:對原始資料集套用 CDC 處理程序,並將輸出內容儲存在 CDC 資料集中。這是透過執行 BigQuery SQL 的 Cloud Composer DAG 達成。
  • CDC 層到報表層:從報表資料集中的 CDC 資料表建立最終報表資料表。方法是在 CDC 資料表上建立執行階段檢視區塊,或在 BigQuery 資料表中執行 Cloud Composer DAG,以實現具體化的資料 (視設定方式而定)。如要進一步瞭解設定,請參閱「自訂報表設定檔」。

config.json 檔案會設定連線至資料來源所需的設定,以便從各種工作負載移轉資料。如要瞭解各資料來源的整合選項,請參閱下列資源。

如要進一步瞭解各資料來源支援的實體關係圖,請參閱 Cortex Framework Data Foundation 存放區中的 docs 資料夾。

K9 部署作業

K9 部署工具可簡化各種資料來源的整合作業。K9 部署工具是 BigQuery 環境中預先定義的資料集,負責擷取、處理及模擬可在不同資料來源重複使用的元件。

舉例來說,如果資料表可能需要根據公曆取得分析結果,則 time 維度可重複用於所有資料來源。K9 部署工具會整合天氣或 Google 搜尋趨勢等外部資料,以及其他資料來源 (例如 SAP、Salesforce、行銷)。這個經過擴充的資料集可提供更深入的洞察資料,以及更全面的分析結果。

下圖顯示資料從不同原始來源流向各種報表層的流程:

K9 資料集

圖 1:K9 資料集。

在圖表中,「來源專案」包含所選資料來源 (SAP、Salesforce 和 Marketing) 的原始資料。目標專案則包含從變更資料擷取 (CDC) 流程衍生的處理後資料。

預先處理 K9 步驟會在所有工作負載開始部署前執行,因此可重複使用的模型會在部署期間提供。這個步驟會轉換各種來源的資料,建立一致且可重複使用的資料集。

所有工作負載部署完畢後,系統會執行後續處理 K9 步驟,啟用跨工作負載報表功能,或擴增模型,在每個報表資料集中找出必要依附元件。

設定 K9 部署作業

K9 設定檔中,設定要產生的有向非循環圖 (DAG) 和模型。

K9 前置處理步驟非常重要,因為可確保資料管道中的所有工作負載都能存取一致準備的資料。這可減少重複作業,並確保資料一致性。

如要進一步瞭解如何為 K9 設定外部資料集,請參閱「為 K9 設定外部資料集」。

後續步驟

完成這個步驟後,請繼續執行下列部署步驟:

  1. 建立工作負載
  2. 複製存放區
  3. 決定整合機制 (本頁)。
  4. 設定元件
  5. 設定部署作業
  6. 執行部署作業