Cloud Data Fusion 簡介:Studio

本頁介紹 Cloud Data Fusion Studio,這是一個可點選及拖曳的圖形介面,可從預先建構的程式庫中建構資料管道,並提供可用於設定、執行及管理管道的介面。在 Studio 中建構管道時,通常會遵循下列程序:

  1. 連結至內部部署或雲端資料來源。
  2. 準備及轉換資料。
  3. 連線至目的地。
  4. 測試管道。
  5. 執行管道。
  6. 排定及觸發管道。

設計及執行管道後,您可以在 Cloud Data Fusion 的 Pipeline Studio 頁面上管理管道:

  • 使用偏好設定和執行階段引數,為管道設定參數,以便重複使用。
  • 自訂運算設定檔、管理資源,並微調管道效能,以便管理管道執行作業。
  • 編輯管道來管理管道生命週期。
  • 使用 Git 整合功能管理管道原始碼控管。

Cloud Data Fusion Studio 中的使用者歷程

事前準備

Cloud Data Fusion:工作室總覽

工作室包含下列元件。

管理

Cloud Data Fusion 可讓您在每個執行個體中建立多個命名空間。在工作室中,管理員可以集中管理所有命名空間,或個別管理每個命名空間。

Studio 提供下列管理員控管功能:

系統管理
Studio 中的 System Admin 模組可讓您建立新的命名空間,並在系統層級定義集中的運算設定檔,這些設定可套用至該執行個體中的每個命名空間。詳情請參閱「管理 Studio 管理功能」。
命名空間管理
Studio 中的 Namespace Admin 模組可讓您管理特定命名空間的設定。您可以為每個命名空間定義運算設定檔、執行階段偏好設定、驅動程式、服務帳戶和 Git 設定。詳情請參閱「管理 Studio 管理功能」。

Pipeline Design Studio

您可以在 Cloud Data Fusion 網頁介面中的 Pipeline Design Studio 中設計及執行管道。設計及執行資料管道包含下列步驟:

  • 連結至來源:Cloud Data Fusion 可連結至內部部署和雲端資料來源。Studio 介面提供預設的系統外掛程式,這些外掛程式已預先安裝在 Studio 中。您可以從外掛程式存放區 (稱為「Hub」) 下載其他外掛程式。詳情請參閱「外掛程式總覽」。
  • 資料準備:Cloud Data Fusion 可讓您使用強大的資料準備外掛程式 Wrangler 準備資料。在 Studio 中針對整個資料集執行邏輯之前,Wrangler 可協助您在單一位置查看、探索及轉換小型資料樣本。這樣一來,您就能快速套用轉換作業,瞭解轉換作業對整個資料集的影響。您可以建立多個轉換,並將這些轉換加入至方程式。詳情請參閱 Wrangler 總覽
  • 轉換:轉換外掛程式會在資料從來源載入後進行變更,例如複製記錄、將檔案格式變更為 JSON,或使用 JavaScript 外掛程式建立自訂轉換。詳情請參閱「外掛程式總覽」。
  • 連線至目的地:準備資料並套用轉換後,您可以連線至要載入資料的目的地。Cloud Data Fusion 支援連結至多個目的地。詳情請參閱「外掛程式總覽」。
  • 預覽:設計管道後,您可以執行預覽工作,在部署及執行管道前先偵錯。如果遇到任何錯誤,您可以在草稿模式中修正錯誤。Studio 會使用來源資料集的前 100 列產生預覽畫面。Studio 會顯示預覽工作的狀態和時間長度。您隨時可以停止工作。您也可以在預覽工作執行時監控記錄事件。詳情請參閱「預覽資料」。
  • 管理管道設定:預覽資料後,您可以部署管道並管理下列管道設定:

    • 運算設定:您可以變更執行管道的運算資料,例如,您想要針對自訂的 Dataproc 叢集執行管道,而不是預設的 Dataproc 叢集。
    • 管道設定:您可以為每個管道啟用或停用檢測功能,例如計時指標。根據預設,系統會啟用檢測功能。
    • 引擎設定:Spark 是預設執行引擎。您可以為 Spark 傳遞自訂參數。
    • 資源:您可以為 Spark 驅動程式和執行程式指定記憶體和 CPU 數量。驅動程式會調度管理 Spark 工作。執行緒會處理 Spark 中的資料處理作業。
    • 管道快訊:您可以設定管道,在管道執行完畢後傳送快訊並開始後置處理工作。您可以在設計管道時建立管道快訊。部署管道後,您可以查看警示。如要變更快訊設定,您可以編輯管道。
    • 轉換下推:如果您希望管道在 BigQuery 中執行特定轉換,可以啟用轉換下推。

    詳情請參閱「管理管道設定」。

  • 使用巨集、偏好設定和執行階段引數重複使用管道:Cloud Data Fusion 可讓您重複使用資料管道。有了可重複使用的資料管道,您就能透過單一管道,將資料整合模式套用至各種用途和資料集。可重複使用的管道可提供更佳的管理性。您可以在執行時設定管道的大部分設定,而非在設計時硬式編碼。在 Pipeline Design Studio 中,您可以使用巨集將變數新增至外掛程式設定,以便在執行階段指定變數替代字元。詳情請參閱「管理巨集、偏好設定和執行階段引數」。

  • 執行:查看管道設定後,您可以啟動管道執行作業。您可以在管道執行階段期間查看狀態變更,例如佈建、啟動、執行和成功。

  • 排程和協調:可以設定批次資料管道,按照指定的時間表和頻率執行。建立及部署管道後,您可以建立排程。在 Pipeline Design Studio 中,您可以建立批次資料管道觸發條件,在管道執行完畢後執行管道,藉此協調管道。這就是所謂的下游和上游管道。您可以在下游管道上建立觸發條件,讓管道根據一或多個上游管道的完成情況執行。

    建議做法:您也可以使用 Composer 在 Cloud Data Fusion 中自動調度管道。詳情請參閱「排程管道」和「協調管道」。

  • 編輯管道:Cloud Data Fusion 可讓您編輯已部署的管道。編輯已部署的管道時,系統會建立同名的新管道版本,並將其標示為最新版本。這可讓您以逐步的方式開發管道,而非複製管道,因為複製管道會建立名稱不同的新管道。詳情請參閱「編輯管道」。

  • 原始碼控管:Cloud Data Fusion 可讓您透過使用 GitHub 管理管道的來源控管,更妥善地管理開發和實際作業環境之間的管道。

  • 記錄和監控:如要監控管道指標和記錄,建議您啟用 Stackdriver 記錄服務,以便搭配 Cloud Data Fusion 管道使用 Cloud Logging。

後續步驟