使用 Cloud Data Fusion 擷取資料

Cloud Data Fusion 提供 Dataplex Universal Catalog Sink 外掛程式,可將資料擷取至任何支援 Dataplex Universal Catalog 的資產。

事前準備

  • 如果沒有 Cloud Data Fusion 執行個體,請建立一個。這個外掛程式適用於在 Cloud Data Fusion 6.6 以上版本中執行的執行個體。詳情請參閱「建立 Cloud Data Fusion 公開執行個體」。
  • 資料擷取來源的 BigQuery 資料集或 Cloud Storage bucket 必須屬於 Dataplex Universal Catalog 湖泊。
  • 如要從 Cloud Storage 實體讀取資料,Dataproc Metastore 必須附加至湖泊。
  • 不支援 Cloud Storage 實體中的 CSV 資料。
  • 在 Dataplex Universal Catalog 專案中,對子網路啟用私人 Google 存取權,通常會設為 default,或將 internal_ip_only 設為 false

必要的角色

如要取得管理角色所需的權限,請要求管理員在 Dataproc 服務代理人和 Cloud Data Fusion 服務代理人 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 上授予下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

將外掛程式新增至管道

  1. 前往 Google Cloud 控制台的 Cloud Data Fusion「Instances」(執行個體) 頁面。

    前往「Instances」(執行個體) 頁面

    您可以在這個頁面管理執行個體。

  2. 如要開啟執行個體,請按一下「查看執行個體」

  3. 前往「Studio」(工作室) 頁面,展開「Sink」(接收器) 選單,然後按一下「Dataplex」

設定外掛程式

在「Studio」(工作室) 頁面將這個外掛程式新增至管道後,按一下 Dataplex Universal Catalog 接收器,即可設定並儲存其屬性。

如要進一步瞭解設定,請參閱 Dataplex Sink 參考資料。

選用步驟:開始使用範例管道

我們提供範例管道,包括 SAP 來源到 Dataplex Universal Catalog 接收器管道,以及 Dataplex Universal Catalog 來源到 BigQuery 接收器管道。

如要使用範例管道,請在 Cloud Data Fusion 使用者介面中開啟執行個體,依序點選「Hub」>「Pipelines」,然後選取其中一個 Dataplex Universal Catalog 管道。系統會開啟對話方塊,協助您建立管道。

執行管道

  1. 部署管道後,在 Cloud Data Fusion Studio 頁面開啟管道。

  2. 依序點選「設定」>「資源」

  3. 選用步驟:根據整體資料大小和管道中使用的轉換次數,變更 Executor CPU記憶體

  4. 按一下 [儲存]

  5. 如要啟動資料管道,請按一下「執行」

後續步驟