步驟 1:建立工作負載

本頁面將引導您完成設定資料基礎的初始步驟,這是 Cortex Framework 的核心。資料基礎架構以 BigQuery 儲存空間為基礎,可整理來自各種來源的輸入資料。這類有條理的資料可簡化分析作業,並應用於 AI 開發。

設定資料整合

首先定義一些重要參數,做為在 Cortex Framework 中有效率地整理及使用資料的藍圖。請注意,這些參數可能會因特定工作負載、所選資料流程和整合機制而異。下圖提供 Cortex Framework 資料基礎中的資料整合作業總覽:

參數結構

圖 1:Cortex Framework 資料基礎:資料整合總覽。

部署前請定義下列參數,以便在 Cortex Framework 中有效率地運用資料。

專案

  • 來源專案:原始資料所在的專案。您至少需要一個 Google Cloud 專案來儲存資料及執行部署程序。
  • 目標專案 (選用):Cortex Framework Data Foundation 儲存已處理資料模型的專案。視需求而定,這可以是與來源專案相同的專案,也可以是不同的專案。

如要為每個工作負載分別建立專案和資料集 (例如,為 SAP 建立一組來源和目標專案,並為 Salesforce 建立另一組目標和來源專案),請為每個工作負載分別執行部署作業。詳情請參閱選用步驟一節中的「使用不同專案來區隔存取權」。

資料模型

  • 部署模型:選擇是否要為所有工作負載部署模型,或只部署一組模型 (例如 SAP、Salesforce 和 Meta)。詳情請參閱「可用的資料來源和工作負載」。

BigQuery 資料集

  • 來源資料集 (原始):來源資料複製到這個 BigQuery 資料集,或是建立測試資料。建議您為每個資料來源建立個別的資料集。舉例來說,一個是 SAP 專用的原始資料集,另一個是 Google Ads 專用的原始資料集。這個資料集屬於來源專案。
  • CDC 資料集:BigQuery 資料集,其中包含 CDC 處理的資料,以及最新的可用記錄。部分工作負載可對應欄位名稱。建議為每個來源分別建立 CDC 資料集。舉例來說,您可以為 SAP 建立一個 CDC 資料集,並為 Salesforce 建立一個 CDC 資料集。這個資料集屬於來源專案。
  • 目標報表資料集:部署 Data Foundation 預先定義資料模型的 BigQuery 資料集。建議為每個來源分別建立報表資料集。舉例來說,您可以為 SAP 建立一個報表資料集,並為 Salesforce 建立一個報表資料集。如果這個資料集不存在,系統會在部署期間自動建立。這個資料集屬於目標專案。
  • 預先處理 K9 資料集:BigQuery 資料集,可部署跨工作負載、可重複使用的 DAG 元件,例如 time 維度。除非經過修改,否則工作負載會依附於這個資料集。如果這個資料集不存在,部署作業期間會自動建立。這個資料集屬於來源專案。
  • 後續處理 K9 資料集:BigQuery 資料集,可部署跨工作負載報表和額外的外部來源 DAG (例如 Google 搜尋趨勢擷取)。如果這個資料集不存在,部署作業期間會自動建立。這個資料集屬於目標專案。

選用:產生範例資料

如果您無法存取自己的資料、沒有設定資料的複製工具,或只是想瞭解 Cortex Framework 的運作方式,Cortex Framework 都能為您產生範例資料和表格。不過,您仍須預先建立及識別 CDC 和原始資料集。

按照下列指示,為每個資料來源建立原始資料和 CDC 的 BigQuery 資料集。

控制台

  1. 在 Google Cloud 控制台中開啟 BigQuery 頁面。

    前往 BigQuery 頁面

  2. 在「Explorer」面板中,選取要建立資料集的專案。

  3. 展開「動作」選項,然後按一下「建立資料集」

    使用專案的動作選單建立資料集。

  4. 在「Create dataset」(建立資料集) 頁面:

    • 針對「Dataset ID」(資料集 ID),輸入唯一的資料集名稱
    • 針對「Location type」(位置類型),選擇資料集的地理位置。資料集在建立之後,該位置就無法改變。

    • (選用) 如要進一步瞭解如何自訂資料集,請參閱「建立資料集:控制台」。

  5. 點選「建立資料集」

BigQuery

  1. 複製下列指令,為原始資料建立新的資料集:

       bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
    

    更改下列內容:

    • LOCATION,並提供資料集的位置
    • SOURCE_PROJECT 改為來源專案 ID。
    • DATASET_RAW,並將其設為原始資料的資料集名稱。例如:CORTEX_SFDC_RAW
  2. 複製下列指令,為 CDC 資料建立新的資料集:

      bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
    

    更改下列內容:

    • LOCATION,並提供資料集的位置
    • SOURCE_PROJECT 改為來源專案 ID。
    • DATASET_CDC 替換為 CDC 資料的資料集名稱。例如:CORTEX_SFDC_CDC
  3. 執行下列指令,確認資料集已建立:

        bq ls
    
  4. (選用) 如要進一步瞭解如何建立資料集,請參閱建立資料集

後續步驟

完成這個步驟後,請繼續執行下列部署步驟:

  1. 建立工作負載 (本頁面)。
  2. 複製存放區
  3. 決定整合機制
  4. 設定元件
  5. 設定部署作業
  6. 執行部署作業